ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

「宇宙船や洞窟を永遠に高速移動するシーン」を生成するAI テキスト指示で映像作成Innovative Tech

» 2023年03月07日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2

 イスラエルのWeizmann Institute of ScienceとNVIDIA Researchに所属する研究者らが発表した論文「SceneScape: Text-Driven Consistent Scene Generation」は、テキスト入力だけから高速に移動する永久シーンを生成する学習ベースのモデルを提案した研究報告である。

 風景などの限られた領域にしか適用できない先行研究とは対照的に、宇宙船や洞窟、氷の城などの屋内の永久シーンの生成も可能にする。

「POV、洞窟、プール、水、暗い洞窟、洞窟の中、美しい風景、最高画質」と入力して生成した映像のサンプルフレーム

 1枚の入力画像からもっともらしい長時間映像を生成することは、いくつかの課題を抱えている。その1つが、合成されたコンテンツが実現可能な3次元世界と整合性が取れているかという点だ。

 例えば、視差効果やシーン内の異なるオブジェクトの咬合関係などを正しく表現する必要がある。また新しいコンテンツを合成するためには、現在の視野の先がどのように見えるかについての強い事前知識が必要である。さらに、生成したコンテンツは滑らかで、時間が経過しても一貫して見える必要がある。

 このような理由から既存モデルは、特定のドメインに依存しており、対象領域の動画や画像に対して大規模な学習を行う必要があり、その利用には限界があった。

 今回の研究では、テキストから画像への変換の進歩に触発されて、テキスト駆動型永久視野生成のための新しいフレームワークを提案する。入力画像を必要とせず、シーンやカメラポーズを説明する文章のみからシーンの長距離動画を合成する。自然言語でシーンを指定できるため、特定のドメインに縛られていないのが特徴だ。

各下部のテキストプロンプトで生成したビデオのサンプルフレーム

 提案手法は、特定のドメインからの学習データを必要としない。事前に学習したテキストから画像への拡散モデルによって学習した生成事前分布と、事前に学習した奥行き予測モデルによって学習した幾何学的事前分布を利用した、ゼロショット方式でシーンを生成する。

 具体的には、入力したテキストとカメラの軌跡をもとに、1フレームずつオンライン方式でシーンを生成する。奥行き予測モデルにより、新たに生成したコンテンツの形状を推定し、生成したシーンが実現可能な3次元形状に従うことを保証するためにシーンのメッシュ表現を推定する。

 単眼での奥行き予測は、異なるフレーム間でちらつきや一貫性がない傾向がある。そのため、テスト時に奥行き予測モデルを微調整し、既知の合成済みコンテンツに対するメッシュ表現から予測できる奥行きと一致させている。

提案手法のパイプライン

 実験では、さまざまなプロンプトから生成したさまざまなシーン(写実的なシーンと想像上のシーンを含む)に対して、定量的・定性的な評価を行った。50フレームの動画を生成し、カメラの動きは後方に高速移動するシーンとした。

 結果、複雑な構造や多様な照明(例えば、蛍光灯や火など)のようなさまざま々な特性を持つシーンを描写し、高品質で幾何学的に妥当なシーンを生成できており、その有効性を実証した。

 制限事項として、時間の経過とともに低下する場合があり、長時間の映像では幾何学的なゆがみやアーチファクトが発生する場合がある。また屋外シーンにおける空と地面のような奥行きの劇的な不連続性を表現することも困難である。

Source and Image Credits: Fridman, R., Abecasis, A., Kasten, Y., & Dekel, T.(2023). SceneScape: Text-Driven Consistent Scene Generation. arXiv preprint arXiv:2302.01133.



Copyright © ITmedia, Inc. All Rights Reserved.