米Google ResearchとイスラエルのTel Aviv Universityの研究チームが開発した「Prompt-to-Prompt Image Editing with Cross Attention Control」は、AIが文章から生成した画像に修正を加えられる技術だ。入力に使った文章の一部を修正することで画像全体を大幅に変えず、その部分だけをピンポイントで変えられる。

　例えば、「自転車に乗る猫」を「車に乗る猫」に書き換えると、風景や猫の位置はそのままに、自転車だけが車に置き換わる。他にも風景画を子どもが描いたスタイルに変えたり、ホールケーキをデコレーションしているグミを特定のメーカーのグミに変えたりなど、さまざまな編集が可能となる。

（左上）文章の形容詞の影響度を変える、（右上）画像内のアイテムを変える、（左下）画像のスタイルを変える、（右下）生成した画像にさらに手を加える

　Imagen、DALL-E 2、Partiなどの大規模言語画像（Large-scale language-image、LLI）モデルが驚異的な出力結果を示し、研究コミュニティーや世間からかつてないほどの注目を集めている。直近では「Midjourney」が話題になっている。

　これらのLLIモデルは、大規模な言語-画像データセットで学習され、自己回帰モデルや拡散モデルを含む最先端の画像生成モデルが用いられている。これらのモデルはゼロからの画像生成には適しているが、途中からの簡単な画像編集はできないのがデメリットで、わずかな変更でも全く異なる出力画像になる。

　これを回避するためLLIモデルを用いた手法では、ユーザーが画像の一部をマスクして元画像の背景と一致させながらマスクした部分のみを編集画像として変化させる手法が取り入れられている。この方法は良好な結果をもたらすが、手順が煩雑で迅速かつ直感的な言語-画像モデルの利点を損なう。

　今回は入力に使用した文章を一部テキスト修正する方法で、一度生成した画像のその部分だけを修正する手法「Prompt-to-Prompt」を提案する。

　この手法は、Cross attention層で発生する画素とテキストの相互作用を修正することで局所的な画像編集を行う。具体的には、プロンプトテキストの拡散ステップでCross attentionマップを注入し、どの画素がどの拡散ステップでどのトークンに注目するかを制御することで、画像編集を可能にする。

　この手法で出力した画像は、元画像の構造の多くを保持したまま、編集内容に従って部分的に変更を行い画像を仕上げる。一度生成されたお気に入りの画像構造を残しつつ、ここだけ変えたいなどのニーズに簡単に答えることができる。

上2段は原型を残しつつ画像変更を行っているのに対し、下2段は元画像とはほとんど関係のない新しい画像を生成

Source and Image Credits: Hertz, Amir, Ron Mokady, Jay M. Tenenbaum, Kfir Aberman, Yael Pritch and Daniel Cohen-Or. “Prompt-to-Prompt Image Editing with Cross Attention Control.” (2022).

「神絵が1分で生成される」　画像生成AI「Midjourney」が話題
人間の指示をもとに画像を生成するAI「Midjourney」がTwitterで話題だ。Discordでイラストのお題を投稿すると画像を出力する仕組み。
AIに思い通りの絵を描かせられるのは誰だ！　「Midjourney」指示力選手権
画像生成AI「Midjourney」が今話題になっている。英語で絵の内容やテイストを伝えると、お題に沿った画像を生成するAIで、人間の指示力が問われる。編集部で「AIへの指示力選手権」を開いた
AI画家「DALL・E 2」一般公開へ　商用利用も可能に　悪用、差別防止機能を搭載
OpenAIが、文章から画像を生成するAI「DALL・E 2」のβ版を公開し、ユーザーの招待を始めた。招待人数は100万人。基本利用料無料で、生成した画像は商用利用も許可する。
Google、文章から画像を生成するAI「Imagen」　「DALL-E 2より好まれる」
Google Researchは、文章から画像を生成する拡散モデル「Imagen」を発表した。独自ベンチマークではOpneAIの「DALL-E 2」よりも人間に好まれる結果が出たとしている。
文章から高解像度な画像を生成するAI、Microsoftなどが開発　「DALL・E2」や「Imagen」よりも横長で出力
Microsoft Research Asia、北京大学、Microsoft Azure AIによる研究チームは、テキストから画像や動画、画像から動画、画像から拡張画像などを生成する学習モデル「NUWA-Infinity」を開発した。