ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

絵心がない線画を“いい感じの作品”に変える画像生成AI「Sketch-to-Image」 Googleなどが開発Innovative Tech

» 2022年12月02日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 Google ResearchとイスラエルのTel Aviv Universityに所属する研究者らが発表した論文「Sketch-Guided Text-to-Image Diffusion Models」は、落書きのようにざっと描いた絵を入力テキストに従って詳細な画像を生成する深層学習モデルを提案した研究報告だ。手描きのスケッチを任意のテキストプロンプトによるスタイル制御で、自然な高精細画像に変換する。

左が入力のスケッチ、その他が上段の文章から出力した画像
出力例

 大規模なテキストから画像への拡散モデルは、与えられたテキストプロンプトに従った前例のない品質の多様な画像の合成を可能にし、コンテンツの作成と編集のための刺激的なツールとなってきた。

 しかし、これらのモデルでは、テキストプロンプトによる意味的なガイダンスにもかかわらず、合成した画像の空間的特性をガイドする直感的な制御がまだ不足している。

 今回の研究では、この課題に対して、事前に学習したテキストから画像への拡散モデルのプロセスを空間マップと共にガイドする汎用的なアプローチを提案する。重要なアイデアは、拡散モデルのコアネットワークに作用するエッジ(線画)予測器によって導き、合成した画像のエッジが参照スケッチに従うように促すことである。

 エッジ予測器は多層パーセプトロン(MLP)ネットワークで、ピクセル単位で動作し、ノイズの多い画像の特徴を空間エッジマップにマッピングするよう学習する。学習は1回のみで、数千枚の画像が必要であり、GPU1台で1時間程度で完了する。

 学習したモデルにスケッチと好きなテキストが入力すると、スケッチの整合性を保ったままテキスト内容に沿った自然な画像を生成する。また、スケッチの線画をどれくらい忠実に守るかのパラメーターの調整も行える。忠実度が高いと線画に沿った絵が出来上がり、忠実度が低いと形状や方向、位置などが線画とズレて生成される。

(左)入力スケッチ、(中央)忠実度の高い仕上がりの画像、(右)忠実度の低い仕上がりの画像
この手法を使って出力した画像
類似モデルと比較した図
プロンプトを選択できるようにしたWebツール
入力のスケッチは同じで、さまざまなテキストを入力した際の出力例。右端の失敗例を含む
単一クラスのみで訓練した場合とさまざまなクラスで訓練した場合の比較

Source and Image Credits: Andrey Voynov, Kfir Aberman, and Daniel Cohen-Or. Sketch-Guided Text-to-Image Diffusion Models



Copyright © ITmedia, Inc. All Rights Reserved.