絵心がない線画を“いい感じの作品”に変える画像生成AI「Sketch-to-Image」　Googleなどが開発：Innovative Tech

Google ResearchとイスラエルのTel Aviv Universityに所属する研究者らは、落書きのようにざっと描いた絵を入力テキストに従って詳細な画像を生成する深層学習モデルを提案した研究報告を発表した。

[山下裕毅，ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

Innovative Tech：

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

　Google ResearchとイスラエルのTel Aviv Universityに所属する研究者らが発表した論文「Sketch-Guided Text-to-Image Diffusion Models」は、落書きのようにざっと描いた絵を入力テキストに従って詳細な画像を生成する深層学習モデルを提案した研究報告だ。手描きのスケッチを任意のテキストプロンプトによるスタイル制御で、自然な高精細画像に変換する。

左が入力のスケッチ、その他が上段の文章から出力した画像

出力例

　大規模なテキストから画像への拡散モデルは、与えられたテキストプロンプトに従った前例のない品質の多様な画像の合成を可能にし、コンテンツの作成と編集のための刺激的なツールとなってきた。

　しかし、これらのモデルでは、テキストプロンプトによる意味的なガイダンスにもかかわらず、合成した画像の空間的特性をガイドする直感的な制御がまだ不足している。

　今回の研究では、この課題に対して、事前に学習したテキストから画像への拡散モデルのプロセスを空間マップと共にガイドする汎用的なアプローチを提案する。重要なアイデアは、拡散モデルのコアネットワークに作用するエッジ（線画）予測器によって導き、合成した画像のエッジが参照スケッチに従うように促すことである。

　エッジ予測器は多層パーセプトロン（MLP）ネットワークで、ピクセル単位で動作し、ノイズの多い画像の特徴を空間エッジマップにマッピングするよう学習する。学習は1回のみで、数千枚の画像が必要であり、GPU1台で1時間程度で完了する。

　学習したモデルにスケッチと好きなテキストが入力すると、スケッチの整合性を保ったままテキスト内容に沿った自然な画像を生成する。また、スケッチの線画をどれくらい忠実に守るかのパラメーターの調整も行える。忠実度が高いと線画に沿った絵が出来上がり、忠実度が低いと形状や方向、位置などが線画とズレて生成される。