Google Research、1枚の人物画像からその人物が話す動画を生成するAI「VLOGGER」発表

Google Researchは、人物の1枚の画像から“音声駆動で”発話する、その人物の動画を生成するAIシステム「VLOGGER」に関する論文を公開した。人物ごとにトレーニングする必要はなく、顔全体の表情の変化や、上半身画像の場合、手のジェスチャーも表現できる。

[ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

　米Googleの研究部門Google Researchは3月13日、人物の1枚の画像から“音声駆動で”発話する、その人物の動画を生成するAIシステム「VLOGGER」に関する論文を公開した。関連ページのトップには、VLOGGERについて説明する音声を発話しているように見える10人の人物の動画が掲載されている。

10人の静止画から生成された、同じ発話をしている人物動画（の画像）

　VLOGGERは、人物画像から3Dモーションへの確率的拡散モデルと空間および時間的制御の両方でテキストから画像にモデルを強化する新しい拡散ベースのアーキテクチャで構成されている。これにより、可変長の高品質動画の生成が可能になったとしている。

VLOGGERのしくみ

　人物画像ごとにトレーニングする必要はなく、口元だけでなく、瞬きなどの顔全体の表情の変化や、上半身画像の場合、手のジェスチャーも表現できる。

　80万個のアイデンティティの以前のデータセットより「1桁大きいく、動的なジェスチャーを備えた」新しいデータセット「MENTOR」に基づいてトレーニングした。

　研究者らは論文で、VLOGGERは「身体化された会話エージェント」への一歩だと語る。「プレゼンテーション、教育、ナレーション、低帯域幅のオンライン通信用独立ソリューションとして、人間とコンピュータの対話のためのインタフェースとして」活用できるとしている。

　動画はVLOGGERのページを参照されたい。

Google Research、1枚の人物画像からその人物が話す動画を生成するAI「VLOGGER」発表

関連記事

関連リンク