ITmedia NEWS > AI+ >
ITmedia AI+ AI活用のいまが分かる

動画も音楽もゲームも 広がるAIエンターテインメントの可能性清水亮の「世界を変えるAI」(1/5 ページ)

» 2022年11月11日 09時00分 公開
[清水 亮ITmedia]

 

 AIの進歩は日進月歩だ。Stable Deffusionのオープンソース公開以後、画像生成にとどまらず、AIを使ったさまざまなユースケースが登場している。その応用範囲は単純にAIを活用した動画制作や音楽制作のみならず、ゲームや新しいタイプの遊びなどへの発展を見せている。今回はこうした画像生成AIの発展例について最新の事例をご紹介する。

拡散モデルの画像生成を容易に扱えるDiffusers(ディフューザーズ)、呪文を拡張する「Stable Diffusion WebUi」など

 8月下旬に登場したオープンソースの画像生成AIライブラリ「Diffusers(ディフューザーズ)」が、登場からわずか3カ月でバージョン0.7.2になった(2022年11月7日現在)。Diffusersとは、Stable Diffusionをはじめとする「拡散モデル」による画像生成を数行のコードで行えるようにするフレームワークだ。

オープンソースの画像生成AIライブラリ「Diffusers(ディフューザーズ)」

 開発の速さも驚異的だが、登場当初に比べて作画にかかる時間も半分程度に短縮され、必要とするGPUメモリ(VRAM)量も目に見えて減った。必要とするVRAMが減るということは、描画に必要なPCのスペックが軽くなり、同時に計算量が減ることも意味するので高速化する。バージョン0.7以降ではさらに高速な推論(描画)を実現するxformerへの対応が行われ、画像生成AIはまさしく加速度的に成長している。

 画像生成AIに用いる「呪文」こと、「プロンプト」に関しては、AUTOMATIC1111氏が開発したGUI環境である「Stable Diffusion-WebUi」などで独自に拡張されていたLPW(Long Prompt Word)スケジューラをDiffusersに取り込むことが可能になった。それによって、これまで英文で75ワードだったプロンプト文の制約が解放され、「((apple))」のようにカッコを重ねて強調したり、「(apple:0.5)」のように、カッコ内でコロンで区切った以降に「強さ」を数値指定できる機能なども加わった。ただし、これは標準機能ではなく、あくまでも「カスタムのパイプラインを選べる」ようにした機能としての登場だ。

「((apple)) and pen 」で描画したもの。「apple」が強調されている
「apple and pen, ((fruit))」で描画したもの。fruitが強調されている

 「パイプライン」と呼ばれているのは、画像生成プロセスで、呪文(プロンプト)から実際に欲しいと思われる画像を「生成(推論)」する過程全体を、パイプラインと呼ぶことに由来する。いわば画像を生成するための手順であり、レシピである。

 さらに、新たに「オイラーディスクリートスケジューラ(Euler Discrete Scheduler)」に対応した。これを使うと、通常は画像生成の目安とされる50ステップが、30ステップ程度で十分な結果が得られるという。つまり、これもさらなる描画の高速化に貢献するというわけだ。

 こうしたさまざまな「足回り」の改良が進んできている。Stable Diffusionは、単に「絵を描いて面白いね」という段階から、ある人々は「本格的な作画支援ツールとしての検討」を始めたり、単に作画をさせるだけでなく、他のさまざまな応用へと動き始めた。

       1|2|3|4|5 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.