米Googleの研究部門Google Researchは1月23日(現地時間)、「リアルな動画生成のための時空拡散モデル」と呼ぶ動画生成AIモデル「Lumiere」(仏語で光という意味)を発表した。テキストや画像からリアルな動画を生成する。生成できるのは、1024×1024ピクセルの5秒間の動画だ。
論文によると、Lumiereは独自のアーキテクチャを利用して、動画の時間全体を一度に生成するという。キーフレーム間をつないで合成する従来のモデルとは異なり、「モデル内の単一パスを通じて、動画の時間的継続全体を一度に生成する時空間U-Netアーキテクチャを導入」した。大まかに言うと、空間と時間の両方を同時に処理できるように設計されており、多数のフレームを組み合わせるのではなく、1つのなめらかなプロセスで動画全体を生成する。
また、生成した動画のスタイルを参照画像で変更したり、動画修復機能で、例えば動画の中の人物のドレスだけ変更したりすることもできる。
論文によると、「3000万本の動画とそれに対応するテキストキャプションを含むデータセットでテキストから動画を変換するモデル(T2V)をトレーニングした」という。Googleは、トレーニングデータの入手方法は明らかにしていない。
Googleは「この研究の主な目標は、初心者ユーザーでも創造的かつ柔軟な方法でビジュアルコンテンツを生成できるようにすることだ。だが、われわれの技術には、偽コンテンツや有害コンテンツを作成できてしまうというリスクがあり、安全で正しい使用を確保するには、悪意ある使用法を検出するツールを開発・適用することが重要だと考えている」という。
GoogleはLumiereを一般公開していない。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR