米Metaは10月4日(現地時間)、テキストから高画質の動画と音声を生成する動画生成AIモデル「Movie Gen」を発表した。具体的なリリース時期、ライセンス、開発者向けの利用可能性については言及していないが、多数のサンプル動画を公開している。
Movie Genは、テキスト、画像、動画、音声のマルチモーダルで、テキスト入力で動画と音声を生成できる。
テキストプロンプトを入力することで最長16秒、16フレーム/秒の動画を生成できる。物体の動きや物体同士の相互作用、カメラの動きを理解しているので、現実的な動きを再現できるとしている。
既存の動画を編集できる。例えばオブジェクトを追加したり、背景を変更したり、動画の一部を別の内容に置き換えたりできる。
マーク・ザッカーバーグCEOは自身のInstagramアカウントでの投稿で、レッグプレスをしている自分の動画を、ローマ風の背景で兵士のような装束を着けた動画や穀物倉庫のような場所での動画に変換してみせた。
サンプル動画では、例えばペンギンの動画で、ペンギンにドレスを着せたり、背景にビーチパラソルを追加したり、鉛筆画のようなタッチに変えたりする編集を紹介している。
自分の画像を入力することで、動画内の人物を自分に変えることができる。
動画の内容に基づいて、シーンに合わせた効果音やBGMを生成できる。音声のスタイルや雰囲気もテキストで指定できる。泳いでいるペンギンが水を切る音や、ジャングルを這うヘビのシーンに不穏な音楽を合わせた例が紹介されている。
Metaは、Movie Genは複数のタスクで業界の類似モデルを凌駕していると説明している。テキストから動画を生成するタスクでは、Runwayの「Gen-3」、Luma Labsの「Dream Machine」、OpenAIの「Sora」を上回るパフォーマンスを示すとしている。
Movie Genの特徴は、物理法則を尊重し、歪みのない一貫性のある動きで現実世界をシミュレートする能力という。
Metaは論文(PDF)で、オリジナル動画を編集したり、動画の人物の顔を変えたりできる技術が悪用の可能性をはらんでいることについても触れている。
これらの悪用を防ぐためには、技術的な対策だけでなく、倫理的なガイドラインの策定や、悪質な動画を見抜くためのリテラシー教育など、社会全体での取り組みが必要としており、具体的な対策については言及していない。
具体的なリリース時期やライセンス、開発者向けの利用可能性については言及されていないが、ザッカーバーグ氏はInstagramで「来年Instagramにやってくる」と語った。
クリス・コックスCPO(最高製品責任者)はThreadsのポストで、まだコストが掛かるし生成に時間が掛かりすぎるので、すぐに製品としてリリースする準備はできていないと語った。
Movie Genは、アーティストやアニメーターの仕事を奪うのではなく、クリエイターの創造性を高めるためのツールとして機能することを目指しているとMetaは説明する。「将来的には、誰もが自分の芸術的ビジョンを現実のものとする可能性がある」。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR