英Stability AIは7月25日、1つの動画から8つの異なる視点の動画を生成するAIモデル「Stable Video 4D」を発表した。現在Hugging Faceから利用できる。
Stable Video 4Dは、画像を動画に変換する「Stable Video Diffusion」モデルを基盤としている。ユーザーが1本の動画をアップロードし、任意の3Dカメラアングルを指定すると、8つの新しい視点の動画(5フレーム)を約40秒で生成する。
画像拡散モデル、動画拡散モデル、マルチビュー拡散モデルを組み合わせ、複数の新しい視点の動画を同時に生成可能。これにより、空間軸と時間軸の一貫性が大幅に向上するという。複数の視点とタイムスタンプで、オブジェクトの外観の一貫性を確保するだけでなく、複数の拡散モデルを使用する煩雑なスコア蒸留サンプリング(SDS)なしで、シンプルな4D最適化フレームワークを実現するとしている。
全体の4D最適化には約20〜25分かかるものの、既存のモデルと比較して、より詳細で入力動画に忠実な新しい視点の動画を生成できるという。同社は「画像ベースの動画生成から完全な3Dダイナミック動画合成へと移行する、私たちの能力における飛躍的な進歩を表している」とする。
Stability AIは、Stable Video 4Dの応用分野として、ゲーム開発、動画編集、VRなどを想定する。同社は現在モデルの改良に取り組んでおり、合成によるデータセットを超えて、より幅広い実世界の動画を扱えるよう最適化を進めているという。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR