ITmedia NEWS >

Alibaba、1枚の画像と音声でリアルな動画を生成する「EMO」発表

» 2024年03月01日 10時39分 公開
[ITmedia]

 中国AlibabaのInstitute for Intelligent Computingは2月29日(現地時間)、「EMO」(Emote Portrait Alive)というAIシステムを発表した。1枚の人物画像をアニメーション化し、話したり歌ったりする動画を生成する。音声から動画に直接合成するアプローチを採用することで、リアルな動きを実現している。

 emo 1 (画像:Alibaba)

 オーディオ波形を動画フレームに変換することで、自然な音声に伴う微妙な顔の動きや人物固有のニュアンスをキャプチャするという。

 emo 2 EMOの概要(画像:Alibaba)

 研究者らは、モデルのトレーニング方法について、250時間以上の映像と1億5000万以上の画像を蓄積したオーディオ動画のデータセットを構築したと説明した。このデータセットには、複数の言語によるスピーチ、映画やテレビ番組のクリップなどが含まれているという。

 写真だけではなく、「モナリサ」などの絵画や米OpenAIが「Sora」の発表で紹介した架空の女性などがしゃべったり歌ったりする動画も紹介されている。

 emo 3 モナリサとSoraで一躍有名になった架空の女性(画像:Alibaba)

 Alibabaは、このプロジェクトは学術研究と効果実証のみを目的としているという。GitHubにリポジトリはあるが、公開するかどうかは不明だ。

Copyright © ITmedia, Inc. All Rights Reserved.