英Stability AIは11月21日(現地時間)、テキストから動画を生成するAIモデル「Stable Video Diffusion」のリサーチプレビュー版をリリースしたと発表した。
同社の画像モデル「Stable Diffusion」をベースにしており、コードはGitHubで公開した。ローカルでモデルを実行するためのウェイトはHugging Faceで公開している。
このモデルは、テキストから画像への事前トレーニング、低解像度の動画の大規模なデータセットによる動画の事前トレーニング、高解像度動画の小規模データセットを使った動画の微調整という3フェーズでトレーニングされている。
公開されたリサーチプレビュー版は、2つの画像から動画を生成するモデルのみで、テキストから動画への変換は、現在ウェイティングリストに登録する状態になっているWebツールが必要だ。
リサーチプレビュー版では、3〜30フレーム/秒のフレームレートで14フレームと25フレームの2種類の動画を生成できる。
テキストから動画を生成するモデルは、米Googleや米Metaも発表している。
Meta、独自の動画生成AI「Emu Video」と編集AI「Emu Edit」を紹介
Google、文章から動画を生成するAI「Imagen Video」を紹介 Metaに続き
アドビ、生成AIを刷新 画像を貼って「このテイストで出力して」も可能に テキスト→動画生成も開発中
Stability AI、テキストで作曲できる生成AI「Stable Audio」
Stability AI、スケッチを高度な画像に変換する「Stable Doodle」無償公開Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR