日本語の“アニメ声”に強い？　中国から新たな動画生成AIモデル「Vidu Q3」登場

公開 2026年02月02日 12時35分

[ITmedia]

印刷する

　中国のAIスタートアップShengShu Technologyは2月2日までに、動画生成AIの新モデル「Vidu Q3」を発表した。APIに加え、Webサービスとしても提供しており、テキストや画像を基に日本語・英語・中国語の音声付き動画を最大16秒まで生成可能。発話者の口の動きを音声と合わせるリップシンク機能も備える。すでに日本のXユーザー間ではアニメーションの出力や日本語読み上げのクオリティーが話題だ。

　Webサービスから利用する場合、出力できる動画の解像度は1080p。アスペクト比は16:9、9:16、1:1、4:3、3:4から選べる。ShengShu Technologyによれば、リップシンクに加えてパン、チルト、ドリーといったカメラワークやカットの切り替えといった指定にも追従しやすい点も特徴という。Vidu Q3によるものかは不明だが、一度生成した動画の解像度を2Kもしくは4Kに上げるアップスケール機能も備える。

　API経由の場合は540pや720pなど解像度を抑えての出力も可能。料金は解像度や混雑状況によって異なり、1080pの場合は1秒の生成ごとに0.16ドル。混雑していない場合は半額となる。

　実際にWebサービス上から何度か利用してみたところ、確かに日本語読み上げの精度は高く、特に“アニメ声”のクオリティーは高い。リップシンクも違和感が少なく、カメラワークやカット変更も米OpenAIの「Sora 2」などに比べればプロンプトに追従する印象を受けた。ただし生成には時間がかかり、8～10秒程度の動画でも出力に数分～10分かかることもあった。