検索
速報

Stability AI、テキスト→動画の「Stable Video Diffusion」をGitHubで公開

Stability AIは、テキストから動画を生成するAIモデル「Stable Video Diffusion」のリサーチプレビュー版をGitHubで公開した。テキスト入力のためのWebツールを入手するにはウェイティングリストに登録する必要がある。

Share
Tweet
LINE
Hatena

 英Stability AIは11月21日(現地時間)、テキストから動画を生成するAIモデル「Stable Video Diffusion」のリサーチプレビュー版をリリースしたと発表した。

 video
生成した動画のフレームサンプル。最上段の動画は「ハイカーが山頂に立ち、息をのむような自然のパノラマの景色を眺めている」というテキストで生成したもの(Stability AIの論文より)

 同社の画像モデル「Stable Diffusion」をベースにしており、コードはGitHubで公開した。ローカルでモデルを実行するためのウェイトはHugging Faceで公開している。


 このモデルは、テキストから画像への事前トレーニング、低解像度の動画の大規模なデータセットによる動画の事前トレーニング、高解像度動画の小規模データセットを使った動画の微調整という3フェーズでトレーニングされている。

 公開されたリサーチプレビュー版は、2つの画像から動画を生成するモデルのみで、テキストから動画への変換は、現在ウェイティングリストに登録する状態になっているWebツールが必要だ。

 waiting list

 リサーチプレビュー版では、3〜30フレーム/秒のフレームレートで14フレームと25フレームの2種類の動画を生成できる。

 テキストから動画を生成するモデルは、米Google米Metaも発表している。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る