ITmedia NEWS > 科学・テクノロジー >

雑に描いたパラパラ漫画をリアルな動画に変えるAI 米カーネギーメロン大が技術開発Innovative Tech

» 2023年05月19日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2

 米カーネギーメロン大学に所属する研究者らが発表した論文「Sketching the Future(STF): Applying Conditional Control Techniques to Text-to-Video Models」は、パラパラ漫画のような連続する絵とテキストプロンプトを入力に、リアルな動画を生成する学習モデルを提案した研究報告である。

 例えば、テキストプロンプトに「夕焼けに浮かぶ熱気球」を入れ、手書きで簡易的に描いた気球の絵を3枚を入力に使用する。その際、気球の絵は左から右へ移動するように描く。すると、夕焼けの空を左から右に移動する気球の動画を出力する。

上段が基本的なテキストプロンプト、2段目が入力スケッチ、3段目が補間、下段が生成した映像

 Text-to-Videoモデルでは自然言語の文章を入力に動画を自動生成してくれるが、ビデオに登場する人物や物を思うように動かすことは難しい。一方で、ポーズを指定して画像を生成できる「ControlNet」というモデルがある。

 この研究では、ゼロショットのText-to-Video生成の利点とControlNetが提供する堅牢な条件制御技術を組み合わせた新しいアプローチ「Sketching the Future」(STF)を提案する。モデルでは、複数のスケッチフレームを入力とし、これらのフレームの流れに一致するビデオ出力を生成する。

 複数のスケッチは、パラパラ漫画のように同じ絵を少し移動させながら連続的に描く必要がある。この連続に描いた絵に合うように、登場する人や物が動作する。このスケッチは事細かく描く必要はなく、フレーム数も少なく、雑に描いた絵でもいい感じに動いてくれる。

 モデルは複数のフレームと時間のペアを入力として受け取り、それらのフレームと時間のペアに一致するビデオ出力を生成する。まず入力されたスケッチ間のフレームを補間する。例えば、通常であれば10フレーム欲しいところ、3フレームしかスケッチしていない場合、その間を絵で補完してから次のステップに進む。

 次は、描いたスケッチと新しく生成した補完フレーム、テキストプロンプトからText-to-Videoモデル(Stable Diffusionを使用)を利用して、フレーム間で前景と背景の一貫性を保つビデオを生成する。

この手法で生成した浜辺を人が横切るシーン

 実験によると、この手法は、追加のビデオデータで学習していないにもかかわらず、高品質かつ一貫性のあるビデオコンテンツを生成できることが分かった。従来のText-to-Videoモデルとは異なり、スケッチフレームを含めることで、より希望する動作の仕様に沿った映像コンテンツを生成できることを実証した。

Source and Image Credits: Dhesikan, Rohan, and Vignesh Rajmohan. “Sketching the Future(STF): Applying Conditional Control Techniques to Text-to-Video Models.” arXiv preprint arXiv:2305.05845(2023).



Copyright © ITmedia, Inc. All Rights Reserved.