このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
イスラエルのTel-Aviv UniversityとNVIDIAの研究チームが開発した「An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion」は、ある概念を新しい単語(論文ではnew pseudo-wordと表現している)に置き換え、その新しい単語を一部に用いた文章を画像生成AIの入力に使用するシステムだ。
指定したキャラクターや物、絵などが持つ概念(形、質感、雰囲気、構成、デザインなど)を単語に圧縮し、入力テキストに活用することでその概念に沿ったさまざまな画像を生成してくれる。
例えば、下の画像のように猫の置物画像の概念をベースにしたいとする。その猫の画像数枚をサンプルに「S*」という新しい単語を生成する。次に、その単語を一部にした入力テキストを作成する。例えば、「ボートで釣りをする2匹のS*を描いた絵」や「S*のバックパック」「バンクシー風のS*」「S*をテーマにした弁当箱」というように、指定した概念をベースにさまざまな形式の画像生成を行う。
テキスト入力に従って高品質の画像を出力する画像生成AI(大規模なText-to-Imageモデル)の勢いが止まらない。これらのツールにより、ユーザーは未知なるシーンや鮮やかな画像の生成、製品デザインの設計などさまざまな分野での活動に利用している。しかしその使用は、ユーザーがテキストによって望ましい対象を記述する能力に制限される。
また画像の一部を調整しようと入力テキストを少しでも変更すると、画像全体の構成が大きく変わり、ここだけ少し変わってくれたらいいのにという編集作業が難しい課題が残っている。これに対しての編集技術が研究されている。
以前記事にした研究では、文章の単語を一部変更すると編集前の画像構成はそのままに、変えた単語の部分だけが変わる技術が紹介され、一定の成果を示している。例えば、「自転車に乗る猫」を「車に乗る猫」に変更した場合、猫の絵や姿勢、背景などはほぼそのままに猫が乗っている乗り物だけが変わって出力される。
このように一部のテキスト編集によって指定した画像の一部を編集できることを実証したわけだが、ある概念をベースに描く高度な編集はまだまだ難しい。例えば、先ほどの猫をベースにしたロゴやポスター、置物、絵画などを生成してほしいとしても、それぞれ別の猫で表現されることになるだろう。
今回の研究では、ある概念をテキスト入力の一部に活用できるシステムを提案する。ある概念は、3から5枚の類似画像を入力に作り出す。概念は新しい単語(例えば、「S*」)に圧縮され、その単語を用いたテキスト入力が行える。
冒頭で示した例以外の出力画像を下の図で示す。例えば、柄が描かれた器をサンプルにした場合の入力テキストとして、「カシューナッツでいっぱいのS*の写真」「S*をボートとして使うネズミ」「S*風マスクの写真」「S*に入ったラーメン」が試された。
この方法はスタイル変換にも活用できる。例えば、指定した画像のスタイルを「S*」という単語に置き換えて入力テキストに利用する。下の画像では、「S*スタイルで描いたパリの街並み」や「S*スタイルの愛らしいコーギー」「S*スタイルのブラックホールの絵」「S*スタイルのタイムズスクエア」という入力を試している。
さらに異なる2つの概念を組み合わせることも可能だ。以下の例だと、「S style」と「S clock」「S cat」「S craft」という4つの概念を単語化しており、それぞれ2つずつ組み合わせた入力テキスト「S styleスタイルのS clockの写真」や「S craftスタイルのS catの写真」などで生成している。
Source and Image Credits: Gal, Rinon, et al. “An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion.” arXiv preprint arXiv:2208.01618 (2022).
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR