米Snapと米ノースイースタン大学に所属する研究者らが発表した論文「SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds」は、モバイル機器において、テキストプロンプトから2秒以内に画像を生成する拡散モデルを提案した研究報告である。

スマートフォン上でテキストから画像を生成している様子

　拡散に基づくテキスト画像合成モデルは、テキストプロンプトを用いたフォトリアリスティックなコンテンツの合成において著しい進歩を示している。しかし、これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十回のノイズ除去の繰り返しがあるため、計算コストが高く、実行に時間がかかる。

　その結果、入力から出力までの時間を短くするには、ハイエンドGPUを搭載した大規模なクラウドベースのプラットフォームが必要になる。

　モバイル機器上でテキストから画像への拡散モデルの推論を高速化する取り組みが新たに始まっている。例えば、Samsung Galaxy S23 Ultraでは拡散パイプラインを11.5秒に高速化している。

　この研究では、モバイル機器上で2秒以内に画像を生成する、テキストから画像への拡散モデルを提案する。この結果を実現するために、研究チームはStable Diffusion v1.5の冗長性を分析し、事前に学習させたUNetモデルの性能を維持しつつ、その有効性を徐々に向上させるアーキテクチャ進化型の手法を提案する。

　拡散モデルの効率的なアーキテクチャを提案することに加えて、さらに、より高速化を達成するために、UNetのノイズ除去ステップの数を減らすことを検討する。

　ステップの蒸留（step distillation）の研究方向に従い、例えば32ステップの教師を、より少ないステップ、例えば16ステップで実行する生徒に蒸留することにより、ステップを削減することができる。

　こうすることで、生徒は教師に対して2倍のスピードアップを享受できる。50のノイズ除去ステップを行うStable Diffusion v1.5と比べ、提案手法では8のノイズ除去ステップまで削減した。

（左）テキストから画像への拡散モデルのワークフロー、（右）提案するステップ蒸留

　実際に市販のスマートフォンを使って、提案手法の生成時間を計測した。その結果、Stable Diffusion v1.5と同等の画質を保持したまま、テキストから512×512の画像を1.84秒で生成できることが分かった。ただし、今回の実験では他の多くのスマートフォンよりも計算能力の高いiPhone 14 Proで行っており、限定的であることを留意したい。

Source and Image Credits: Yanyu Li, Huan Wang, Qing Jin, Ju Hu, Pavlo Chemerys, Yun Fu, Yanzhi Wang, Sergey Tulyakov, and Jian Ren. SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds

文化庁の「AIと著作権」の解釈が話題に　AIに詳しい弁護士「かなり踏み込んだ内容」
内閣府が公開している資料「AIと著作権の関係等について」がTwitter上で話題になっている。文化庁が制作した資料で、AIと著作権に対する現行法での見解などをまとめている。
集英社、“AIグラビア”発売　実在しない“妹系美少女”　編集部が画像生成
集英社が、AI生成画像を使ったグラビア写真集「生まれたて。」を発売した。モデルには「さつきあい」という名前があるが実在はしない。
pixiv、AI巡る規約改定　「作品をAIに学習させた」＆「投稿者の不利益になる」満たす行為を禁止
イラスト投稿サイト「pixiv」を運営するピクシブは、同社が運営するサービスの利用規約を改定した。（1）pixivなどに投稿された作品をAIなどに学習させる、（2）投稿者の不利益となる──この2つの条件を満たす行為を禁止した。
アドビの生成AI、β版を一般公開　Adobe IDがあれば無料で使える
米Adobeが同社の生成AI「Adobe Firefly」を一般公開した。無料のAdobe IDさえあればウェイトリストなしで誰でも利用できる。なお、正式版ではなく引き続きβ版としての提供であり、商用目的では利用できないとしている。
注目集める「AIコスプレイヤー」の作り方を調べてみたら、“無規制地帯”が見つかった　イラスト生成のダークサイド
注目集める「AIコスプレイヤー」。その作り方を調べてみたら、インターネットの“無規制地帯”が見つかった。