生成系AIとしてチャットAI「ChatGPT」が沸く一方で、研究開発は速い速度で進みつつも利用に当たっては複雑な判断が各ユーザーに迫られている、画像生成AI。一部のイラストレーターから拒絶反応もある状況や今後のビジネスモデルなどについて、画像生成AI「Stable Diffusion」の開発企業である英Stability AIの日本法人代表、ジェリー・チーさんにいろいろと聞いてみた。

画像生成AIブームを加速させた「オープンソース化」

note主催の勉強会に登壇したジェリー・チーさん（右）、司会進行したnoteの徳力基彦さん（左）（提供：note）

　ジェリーさんは、4月11日にnoteが主催したマスメディア向けのAI活用勉強会で登壇。画像生成AIの原理や、マスメディア向けの活用方法などを紹介した。

　Stability AIは「AIの民主化」を掲げ、2022年8月にStable Diffusionをオープンソースで公開した。これ以前にも米OpenAIの「DALL・E 2」や米Midjourneyの「Midjourney」が画像生成AIとして先行しているが、Stable Diffusionのオープンソース公開をきっかけとして、派生モデルや関連技術が続々と登場。画像生成AIが一躍脚光を浴びることになった。

「Stable Diffusion」の出力例（ジェリー・チーさんの登壇資料より引用）

　Stable Diffusionはトレーニング済みモデルとして公開されており、企業や個人の開発者が自前の環境で動作させることも可能。集めた画像データを使い、AIモデルを強化することもできる。Stability AI自身もStable DiffusionをWebサービスとして使える「DreamStudio」を提供している。

　初期のStable Diffusionは、入力されたテキストに応じて画像を出力する機能のみを備えていたが、下書きなど既存のイラストから類似した構図の画像を生成する「Image2Image」や、小さな画像から高解像な画像を生成する超解像度機能などが追加されている。

　関連技術も数多く登場している。生成画像のキャラクターのポーズを棒人間などで指定できる「ControlNet」や特定の画風などへ生成画像を制御する「DreamBooth」「LoRA」など、テキストによる指定だけでは難しかった部分をカバーする技術の他、Webページのデザインといったイラスト生成の枠にとどまらないツールも世に出始めている。

棒人間で生成画像のキャラクターのポーズを指定できる技術「ControlNet」

オープンにして儲かるの？

　オープンソース化でStable Diffusionを使う人や改善する人が増えたのは事実だが、一方で気になるのがマネタイズだ。

　DALL・E 2は初期クレジットが尽きればその先は有料で、Midjourneyは無料でも利用できるがライセンスなどが異なる有料プランを用意している。Stability AIのDreamStudioも初期クレジットの後は有料のスタイルだが、そもそもそのモデルを無料公開しているので、GPUと電気代さえいとわなければStability AIにお金を払わずとも無尽蔵に画像を生成できてしまう。

　現状として、Stability AIは投資ファンドからの資金でStable Diffusionを開発しており、大きな収益は挙げていない。今後のマネタイズはどうするのか。

今後のマネタイズは“カスタムプライベートモデル”で

　　　　　　 1|2|3 次のページへ