Google ResearchとイスラエルのTel Aviv Universityに所属する研究者らが発表した論文「Sketch-Guided Text-to-Image Diffusion Models」は、落書きのようにざっと描いた絵を入力テキストに従って詳細な画像を生成する深層学習モデルを提案した研究報告だ。手描きのスケッチを任意のテキストプロンプトによるスタイル制御で、自然な高精細画像に変換する。

左が入力のスケッチ、その他が上段の文章から出力した画像

出力例

　大規模なテキストから画像への拡散モデルは、与えられたテキストプロンプトに従った前例のない品質の多様な画像の合成を可能にし、コンテンツの作成と編集のための刺激的なツールとなってきた。

　しかし、これらのモデルでは、テキストプロンプトによる意味的なガイダンスにもかかわらず、合成した画像の空間的特性をガイドする直感的な制御がまだ不足している。

　今回の研究では、この課題に対して、事前に学習したテキストから画像への拡散モデルのプロセスを空間マップと共にガイドする汎用的なアプローチを提案する。重要なアイデアは、拡散モデルのコアネットワークに作用するエッジ（線画）予測器によって導き、合成した画像のエッジが参照スケッチに従うように促すことである。

　エッジ予測器は多層パーセプトロン（MLP）ネットワークで、ピクセル単位で動作し、ノイズの多い画像の特徴を空間エッジマップにマッピングするよう学習する。学習は1回のみで、数千枚の画像が必要であり、GPU1台で1時間程度で完了する。

　学習したモデルにスケッチと好きなテキストが入力すると、スケッチの整合性を保ったままテキスト内容に沿った自然な画像を生成する。また、スケッチの線画をどれくらい忠実に守るかのパラメーターの調整も行える。忠実度が高いと線画に沿った絵が出来上がり、忠実度が低いと形状や方向、位置などが線画とズレて生成される。

（左）入力スケッチ、（中央）忠実度の高い仕上がりの画像、（右）忠実度の低い仕上がりの画像

この手法を使って出力した画像

類似モデルと比較した図

プロンプトを選択できるようにしたWebツール

入力のスケッチは同じで、さまざまなテキストを入力した際の出力例。右端の失敗例を含む

単一クラスのみで訓練した場合とさまざまなクラスで訓練した場合の比較

Source and Image Credits: Andrey Voynov, Kfir Aberman, and Daniel Cohen-Or. Sketch-Guided Text-to-Image Diffusion Models

計算機能のないアナログデバイスがAIになる？　NTTの「物理ニューラルネットワーク」が不思議
NTTグループで、計算機能を持たないアナログデバイスを使って、認識型AIのような仕組みを実現する研究が進んでいる。実用化できれば、アナログな情報からデジタルデータへの変換が不要になり、低消費電力化や高速化が期待できるという。
クリスタ、画像生成AIを試験導入へ　「Stable Diffusion」が作画補助　「AIと創作活動の共存を模索」
セルシスは、ペイントソフト「CLIP STUDIO PAINT」（クリスタ）の作画補助機能として、画像生成AIを取り入れた機能「画像生成AIパレット」を試験導入する。クリスタ上で文書を入力すると、それに合った画像をAIが自動生成する。
W杯スペイン戦勝率は21.0％、AIが予想　JX通信社がシミュレーター開発
報道ベンチャーのJX通信社は、開催中のサッカー「FIFA ワールドカップカタール 2022」大会（W杯）で、12月2日に行う予定のスペイン代表戦での勝率は21.0％と、AIを使った勝敗予想を発表した。
「10秒でイメージ通りに」　お絵かきAIが変える“デザイン”　あるネットショップでの使い方
「AIお絵描きツールのmidjourneyで、アクセサリーごとにオリジナルのラッピングをしています」。輸入雑貨などのネットショップで。
お絵かきAI、育児で活躍　“無限塗り絵”に4歳も夢中
塗り絵好きな子どもがいる家庭では、「子どもが好きな塗り絵をどう用意するか」がしばしば課題になる。そこで活躍するのが、お絵かきAIだ。