ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

スマホで“1.8秒” テキストから高速で画像を生成するAI「SnapFusion」 Stable Diffusionと同等の画質Innovative Tech

» 2023年06月07日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2

 米Snapと米ノースイースタン大学に所属する研究者らが発表した論文「SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds」は、モバイル機器において、テキストプロンプトから2秒以内に画像を生成する拡散モデルを提案した研究報告である。

スマートフォン上でテキストから画像を生成している様子

 拡散に基づくテキスト画像合成モデルは、テキストプロンプトを用いたフォトリアリスティックなコンテンツの合成において著しい進歩を示している。しかし、これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十回のノイズ除去の繰り返しがあるため、計算コストが高く、実行に時間がかかる。

 その結果、入力から出力までの時間を短くするには、ハイエンドGPUを搭載した大規模なクラウドベースのプラットフォームが必要になる。

 モバイル機器上でテキストから画像への拡散モデルの推論を高速化する取り組みが新たに始まっている。例えば、Samsung Galaxy S23 Ultraでは拡散パイプラインを11.5秒に高速化している。

 この研究では、モバイル機器上で2秒以内に画像を生成する、テキストから画像への拡散モデルを提案する。この結果を実現するために、研究チームはStable Diffusion v1.5の冗長性を分析し、事前に学習させたUNetモデルの性能を維持しつつ、その有効性を徐々に向上させるアーキテクチャ進化型の手法を提案する。

 拡散モデルの効率的なアーキテクチャを提案することに加えて、さらに、より高速化を達成するために、UNetのノイズ除去ステップの数を減らすことを検討する。

 ステップの蒸留(step distillation)の研究方向に従い、例えば32ステップの教師を、より少ないステップ、例えば16ステップで実行する生徒に蒸留することにより、ステップを削減することができる。

 こうすることで、生徒は教師に対して2倍のスピードアップを享受できる。50のノイズ除去ステップを行うStable Diffusion v1.5と比べ、提案手法では8のノイズ除去ステップまで削減した。

(左)テキストから画像への拡散モデルのワークフロー、(右)提案するステップ蒸留

 実際に市販のスマートフォンを使って、提案手法の生成時間を計測した。その結果、Stable Diffusion v1.5と同等の画質を保持したまま、テキストから512×512の画像を1.84秒で生成できることが分かった。ただし、今回の実験では他の多くのスマートフォンよりも計算能力の高いiPhone 14 Proで行っており、限定的であることを留意したい。

Source and Image Credits: Yanyu Li, Huan Wang, Qing Jin, Ju Hu, Pavlo Chemerys, Yun Fu, Yanzhi Wang, Sergey Tulyakov, and Jian Ren. SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds



Copyright © ITmedia, Inc. All Rights Reserved.