米Metaは11月16日(現地時間)、拡散モデルに基づいてテキストから動画を生成するモデル「Emu Video」と、マルチタスク画像編集モデル「Emu Edit」を発表した。いずれも同社がMeta Connectで発表した独自の画像生成の基盤モデル「Emu」(Expressive Media Universe)に基づいて構築したものだ。
マーク・ザッカーバーグCEOは自身のFacebookへの投稿で、「これらのツールをFacebookやInstagramの動画や画像に統合しようとしている」と語った。
Emu Videoは、まずテキストプロンプトで画像を生成し、次に生成した画像と新たなテキストに基づいて動画を生成するという2段階プロセスで動画を生成する。こうすることで、動画生成モデルを効率的にトレーニングできるという。
生成できるのは、512×512ピクセルで、1秒当たり16フレームの長さ4秒の動画。
専用サイトでいくつかのサンプルを試すことができる。
Emu Editは、ローカル/グローバル編集、背景の削除/追加、色やジオメトリの変換、検出とセグメンテーションなどの操作を、テキストプロンプトで行える画像編集ツール。
このモデルをトレーニングするために1000万個の合成サンプルを含むデータセットを開発したという。各サンプルに、入力画像、実行するタスクの説明、ターゲットの出力画像が含まれる。Metaは、1000万個というのはこの種のデータセットとしては最大だとしている。
グラスにオレンジジュースを注ぐ画像サンプルでは、「画像に『オレンジジュース』という文字を入れる」「アペロールスプリッツにする」「テキストを削除」「背景をプールサイドに」「グラスを金のゴブレットに変更」「ゴブレットにサングラスを追加」「ルネッサンス風のスタイルに変換」というプロンプトで画像が変わっていく様子が紹介されている。
Metaは、これらのモデルはまだ研究の途上にあるとし、公開する予定なのかどうか、FacebookやInstagramで利用できるようにするのはいつなのか、などについての説明はない。
「プロのアーティストやアニメーターに代わるものではないが、人間が自分自身を表現するのに役立つ可能性はある」としている。
いずれのモデルも専用サイトで試せる。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR