米Googleの研究部門Google Researchは3月13日、人物の1枚の画像から“音声駆動で”発話する、その人物の動画を生成するAIシステム「VLOGGER」に関する論文を公開した。関連ページのトップには、VLOGGERについて説明する音声を発話しているように見える10人の人物の動画が掲載されている。
VLOGGERは、人物画像から3Dモーションへの確率的拡散モデルと空間および時間的制御の両方でテキストから画像にモデルを強化する新しい拡散ベースのアーキテクチャで構成されている。これにより、可変長の高品質動画の生成が可能になったとしている。
人物画像ごとにトレーニングする必要はなく、口元だけでなく、瞬きなどの顔全体の表情の変化や、上半身画像の場合、手のジェスチャーも表現できる。
80万個のアイデンティティの以前のデータセットより「1桁大きいく、動的なジェスチャーを備えた」新しいデータセット「MENTOR」に基づいてトレーニングした。
研究者らは論文で、VLOGGERは「身体化された会話エージェント」への一歩だと語る。「プレゼンテーション、教育、ナレーション、低帯域幅のオンライン通信用独立ソリューションとして、人間とコンピュータの対話のためのインタフェースとして」活用できるとしている。
動画はVLOGGERのページを参照されたい。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR