愛犬の合成画像を生成できるAI　文章で指示するだけでコスプレ　米Googleが開発：Innovative Tech

米Google Researchと米ボストン大学の研究チームは、数枚の被写体画像とテキスト入力を使って、与えられた被写体が溶け込んだ新たな合成画像を作成する被写体駆動型Text-to-Imageモデルを開発した。

[山下裕毅，ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

Innovative Tech：

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

　米Google Researchと米ボストン大学の研究チームが開発した「DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation」は、数枚の被写体画像とテキスト入力を使って、与えられた被写体が溶け込んだ新たな合成画像を作成する被写体駆動型Text-to-Imageモデルだ。

　被写体の特徴を多く残しつつ、異なるテキスト入力に従ってさまざまな状況やシーンでの被写体が含まれる画像を生成する。

左端に被写体にしたい数枚の画像。右側が被写体が含まれる異なるシーンの画像

左端が入力画像で、右がその画像に写る被写体をベースに異なるシーンをテキストから生成した画像

　自然言語で書かれたテキスト入力に基づいて高品質かつ多様な画像を生成する大規模なText-to-Imageモデルが流行している。一方で、テキストを一部変えるだけで全然違う画像になってしまうなどの課題も出てきている。一般的に、詳細な編集や思うような画像が作れないのが現状だろう。そのため、これらの課題を解決する提案が報告されている。

　今回の研究もその中の1つで、何か1つの対象物（ユーザー特定の被写体）をベースにした合成画像を生成するText-to-Imageモデルとなる。先日記事にした、ある概念を単語に圧縮して概念ベースで新たな画像を合成するText-to-Imageモデルと違い、今回はもう少し被写体ベースとなり、対象をより固定（高い忠実度の保持）して出力する。

　下記の画像内にあるバンクシーが描いた猫の絵が分かりやすい。概念ベースだと猫の絵だが元画像の猫の形状や色などは変わって表現されているのに対し、この手法は被写体の形状や模様、色などほとんどが保持されているのが分かる。

左が入力画像。上段が概念ベースのモデルで出力した画像。下段がこのモデルである被写体ベースで出力した画像。この手法の方が、より被写体通りの合成画像になっているのが分かる

　今回のアプローチは、ユーザーが生成したい特定の被写体と新しい単語を結び付けるように既存のText-to-Imageモデルをパーソナライズされたモデルに拡張する。拡張するために、被写体の画像3～5枚を用いて2つのステップで拡散モデルを微調整する。

　まず入力画像と、被写体が属するクラス名（例えば、「A [V] dog」）と一意の識別子を含むテキストプロンプトとで低解像度Text-to-Imageモデルを微調整する。次に、入力画像から低解像度版と高解像度版のペアを用いて超解像成分を微調整する。これにより、被写体のディテールに対するモデルの高い忠実度を維持することができる。