米Googleの研究部門Google Researchは5月24日(現地時間)、文章から画像を生成する拡散モデル「Imagen」を発表した。独自開発のベンチマーク「DrawBench」では、OpenAIの同様のAI「DALL-E 2」よりも人間に好まれる結果になったとしている。
拡散モデル(Diffusion Model)は、ランダムなドットのパターンから始まり、画像の特定の側面を認識すると、そのパターンを画像に向かって徐々に変更するモデルとGoogleは説明する。Imagenは、文章を理解するための大規模な変換言語モデルをベースに拡散モデルで画像を生成する。
Imagen開発の過程で、テキストデータのみでトレーニングした汎用の大規模言語モデルが画像合成のためのテキストエンコードに非常に効果的だということが分かったという。Imagenで言語モデルのサイズを大きくすると、画像拡散モデルのサイズを大きくするよりも結果がはるかに向上するとしている(詳細は論文)。
GoogleはImagenを「現時点では公共の使用には適していない」と判断し、一般に公開はしないとしている。フェイクニュースやリベンジポルノに容易に悪用できそうなツールだからだ。また、変換モデルのデータはキュレーションしていないWeb上のデータセットに大きく依存しており、社会的なステレオタイプや人種差別的なコンテンツが含まれている可能性がある。「将来の作業での社会的および文化的バイアス」について調査し、こうした問題に取り組んでいくとしている。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR