Google、文章から画像を生成するAI「Imagen」　「DALL-E 2より好まれる」

Google Researchは、文章から画像を生成する拡散モデル「Imagen」を発表した。独自ベンチマークではOpneAIの「DALL-E 2」よりも人間に好まれる結果が出たとしている。

[ITmedia] PC用表示関連情報

LINE

Hatena

　米Googleの研究部門Google Researchは5月24日（現地時間）、文章から画像を生成する拡散モデル「Imagen」を発表した。独自開発のベンチマーク「DrawBench」では、OpenAIの同様のAI「DALL-E 2」よりも人間に好まれる結果になったとしている。

「dog looking curiously in the mirror, seeing a cat.」というテキストで生成した画像

　拡散モデル（Diffusion Model）は、ランダムなドットのパターンから始まり、画像の特定の側面を認識すると、そのパターンを画像に向かって徐々に変更するモデルとGoogleは説明する。Imagenは、文章を理解するための大規模な変換言語モデルをベースに拡散モデルで画像を生成する。

Imagen生成画像の例（下のキャプションが与えた文章）

　Imagen開発の過程で、テキストデータのみでトレーニングした汎用の大規模言語モデルが画像合成のためのテキストエンコードに非常に効果的だということが分かったという。Imagenで言語モデルのサイズを大きくすると、画像拡散モデルのサイズを大きくするよりも結果がはるかに向上するとしている（詳細は論文）。

　GoogleはImagenを「現時点では公共の使用には適していない」と判断し、一般に公開はしないとしている。フェイクニュースやリベンジポルノに容易に悪用できそうなツールだからだ。また、変換モデルのデータはキュレーションしていないWeb上のデータセットに大きく依存しており、社会的なステレオタイプや人種差別的なコンテンツが含まれている可能性がある。「将来の作業での社会的および文化的バイアス」について調査し、こうした問題に取り組んでいくとしている。

Google、文章から画像を生成するAI「Imagen」　「DALL-E 2より好まれる」

関連記事

関連リンク

Google、文章から画像を生成するAI「Imagen」 「DALL-E 2より好まれる」

関連記事

関連リンク

Google、文章から画像を生成するAI「Imagen」　「DALL-E 2より好まれる」