Alibaba、1枚の画像と音声でリアルな動画を生成する「EMO」発表

Alibabaは、1枚の人物画像からその人物が歌ったりしゃべったりする動画を生成するAIシステム「EMO」（Emote Portrait Alive）を発表した。

[ITmedia] PC用表示関連情報

LINE

Hatena

　中国AlibabaのInstitute for Intelligent Computingは2月29日（現地時間）、「EMO」（Emote Portrait Alive）というAIシステムを発表した。1枚の人物画像をアニメーション化し、話したり歌ったりする動画を生成する。音声から動画に直接合成するアプローチを採用することで、リアルな動きを実現している。

（画像：Alibaba）

　オーディオ波形を動画フレームに変換することで、自然な音声に伴う微妙な顔の動きや人物固有のニュアンスをキャプチャするという。

EMOの概要（画像：Alibaba）

　研究者らは、モデルのトレーニング方法について、250時間以上の映像と1億5000万以上の画像を蓄積したオーディオ動画のデータセットを構築したと説明した。このデータセットには、複数の言語によるスピーチ、映画やテレビ番組のクリップなどが含まれているという。

　写真だけではなく、「モナリサ」などの絵画や米OpenAIが「Sora」の発表で紹介した架空の女性などがしゃべったり歌ったりする動画も紹介されている。

モナリサとSoraで一躍有名になった架空の女性（画像：Alibaba）

　Alibabaは、このプロジェクトは学術研究と効果実証のみを目的としているという。GitHubにリポジトリはあるが、公開するかどうかは不明だ。

Alibaba、1枚の画像と音声でリアルな動画を生成する「EMO」発表

関連記事

関連リンク