検索
ニュース

映像内の犬を猫に変えられるAI テキストのみで動画編集が可能 Googleなど「Dreamix」開発Innovative Tech(1/2 ページ)

Google ResearchとイスラエルのThe Hebrew University of Jerusalemに所属する研究者らは、テキストに応じた動画編集ができる拡散モデルを提案した研究報告を発表した。

Share
Tweet
LINE
Hatena

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2

 Google ResearchとイスラエルのThe Hebrew University of Jerusalemに所属する研究者らが発表した論文「Dreamix: Video Diffusion Models are General Video Editors」は、テキストに応じた動画編集ができる拡散モデルを提案した研究報告である。


(左)入力動画、(右)「台所の床に茶色い猫と白い猫」とテキスト入力した際の編集後の映像

 テキストから画像を生成する拡散モデルと同様に、テキストから動画への変換モデルも近年提案されている。だがテキストに応じて動画編集できる拡散モデルは現状ではほとんどない。

 この研究では、入力動画をテキストプロンプトで高度に編集できる拡散モデルを用いた手法「Dreamix」を提案する。動画とプロンプトが与えられると、Dreamixは被写体のテクスチャやサイズ、色、姿勢、カメラのポーズ、背景などをテキストに応じて忠実に再現しながら動画を編集し、時間的に一貫した新しい映像を作成する。

 例えば、被写体の猿を熊に変える、ウミガメの泳いでいる向きを変える、背景である庭に火をつけて燃やすシーンに変えるなど、さまざまな編集がテキストだけで容易に行える。


(上段)元の映像、(下段)「アップビートな音楽に合わせて全身を動かしながら踊る熊」というテキスト入力から出力した映像

(左)入力映像、(右)ウミガメの泳ぐ方向を変え、サメを泳がせた様子

各上段が入力動画、各下段がテキストプロンプトで編集した新しい動画

 提案手法は、2つの主要なアイデアにより、ビデオ拡散モデルが元映像をある程度保持しつつ、テキストプロンプトに忠実な合成ビデオ生成を可能にする。まず入力動画の解像度をダウンサンプリングし、ノイズを加えてさらに劣化させる。

 次に元映像上で生成モデルの微調整を行うことで、補正された低解像度ビデオをテキストに一致する高解像度ビデオにマッピングする。その結果、ビデオ拡散モデルは劣化した入力映像から得られる低解像度情報を利用することで、テキストプロンプトの指示に応じる調和した映像を合成する。

 さらにビデオ拡散モデルを活用して、画像1枚から、その画像をベースとしたアニメーション生成のための新しいフレームワークを提案する。これは、画像内のオブジェクトや背景のアニメーション、ダイナミックなカメラの動き、新たな被写体を増やして動かすなど、画像のみからテキストに応じた動画を生成できる。


1枚の入力画像(左端)をテキストプロンプトで動画に変換する。被写体を入れてアニメーション化

 さらに、同じオブジェクトが写った複数枚の画像を用い、テキストプロンプトで写ったオブジェクトをアニメーション化するフレームワークも提案する。


複数枚の被写体の画像をベースに、テキストプロンプトで被写体を含んだ映像を生成する
       | 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る