中国AlibabaのInstitute for Intelligent Computingは2月29日(現地時間)、「EMO」(Emote Portrait Alive)というAIシステムを発表した。1枚の人物画像をアニメーション化し、話したり歌ったりする動画を生成する。音声から動画に直接合成するアプローチを採用することで、リアルな動きを実現している。
オーディオ波形を動画フレームに変換することで、自然な音声に伴う微妙な顔の動きや人物固有のニュアンスをキャプチャするという。
研究者らは、モデルのトレーニング方法について、250時間以上の映像と1億5000万以上の画像を蓄積したオーディオ動画のデータセットを構築したと説明した。このデータセットには、複数の言語によるスピーチ、映画やテレビ番組のクリップなどが含まれているという。
写真だけではなく、「モナリサ」などの絵画や米OpenAIが「Sora」の発表で紹介した架空の女性などがしゃべったり歌ったりする動画も紹介されている。
Alibabaは、このプロジェクトは学術研究と効果実証のみを目的としているという。GitHubにリポジトリはあるが、公開するかどうかは不明だ。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR