話題のAIベンチャー「Sakana AI」が画像生成AIを公開　“自律進化”技術で、推論速度が約10倍高速に

AIベンチャーのSakana AIは、画像生成AI「EvoSDXL-JP」を公開した。同社が提案する生成AIの開発手法「進化的モデルマージ」によって構築したAIモデルで、従来の日本語AIモデルと比べて10倍速く画像を生成できるという。

LINE

Hatena

　AIベンチャーのSakana AI（東京都港区）は4月22日、画像生成AI「EvoSDXL-JP」を公開した。同社が提案する生成AIの開発手法「進化的モデルマージ」によって構築したAIモデルで、従来の日本語AIモデルと比べて10倍速く画像を生成できるという。研究や教育目的のみで利用可能であり、HuggingFace上で公開中。

EvoSDXL-JPで生成した画像の例（1/7）（プロンプトは「可愛いゾウの編みぐるみ」、「ラーメン、浮世絵、葛飾北斎」、「折り紙弁当」、「（下町ロケット、東京サラリーマン）、浮世絵」など）

　進化的モデルマージとは、複数の基盤モデル（生成AIを含む、大規模なデータセットによる事前学習で各種タスクに対応できるモデルのこと）を組み合わせて新たなモデルを作る「マージ」に、進化的アルゴリズムを適用したもの。この技術によって、比較的少ない計算資源とデータで、指定した能力に長けた新しい基盤モデルを自動作成できるという。

　今回公開したEvoSDXL-JPでは、画像生成AIでよく使われている学習モデルである「拡散モデル」に対して、進化的モデルマージを適用。同社はこれまで、進化的モデルマージを使った言語生成AIを公開していたが、画像生成AIの構築でも効率的な自動化に成功したという。同社は「これは、進化的モデルマージの可能性が幅広いことを示している」と成果を説明する。

生成した画像の例（2/7）

　画像生成の速さも特徴の1つ。拡散モデルを使った画像生成AIは、“ノイズ画像から少しずつノイズを除去するステップを繰り返して画像を生成する”という仕組みのため、推論速度が遅いという課題があったが、EvoSDXL-JPはステップ数が約10分の1になった。これにより、一般的な拡散モデルに対して約10倍の速度で画像生成が可能という。

　また、EvoSDXL-Jは日本語のプロンプトにも対応。性能面では、生成した画像と本物の画像の近さを表す値「FID」（小さいほど良いとされる）は既存モデルと比べても低いため、同社は「日本語プロンプトを忠実に理解した画像が生成できることを示している」と説明している。