ITmedia NEWS > STUDIO >
ニュース
» 2021年03月24日 07時41分 公開

手軽にリアルな絵を生成 粗いマスク指定とテキスト入力でInnovative Tech

雑にマスクを切ってテキストで指定するだけで高度な合成が可能に。

[山下裕毅,ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 スイス・チューリッヒ工科大学の研究チームが開発した「Controlling Style and Semantics in Weakly-Supervised Image Generation」は、ユーザーが手描きで大雑把に指定したマスク(画像処理ソフトなどで使われる領域指定)とテキスト記述や属性から、もっともらしいリアルな絵を生成する深層学習フレームワークだ。

photo セマンティックマップを利用してオブジェクトの形状やクラスを制御し、テキスト記述や属性を利用してローカルとグローバルの両方のスタイルを制御する

 手描きマスクからリアルな絵を生成する従来の技術には大規模なラベル付きデータが必要で、複雑な形状やオブジェクトから構成される絵の合成はできなかった。オブジェクトを削除すると不自然な部分が残ってしまう問題もあった。

 今回の手法では、オブジェクトの形状やクラスを制御するための大雑把な手描きマスクと、スタイルやテクスチャを制御するためのテキスト入力を組み合わせた新しいモデルを導入する。

 マスクを使った画像操作ではオブジェクトの形状やサイズ、移動、削除、追加などが実行でき、属性や自然言語による説明でシーンとそのオブジェクトの色や素材、天気、風景などのスタイルを制御できる。

 今回のフレームワークは、自動的に生成されたマスクを使用しラベルマップを作成している。なぜなら、セグメンテーションマスクに基づく弱教師あり学習と比較して、このプロセスは不自然なオブジェクトの発生が少なく、新しいデータセットでラベル付けする際に労力を抑えられるからだ。

photo 本手法の2段階モデルによって生成されたデモ。入力のフルマスクに加えて、背景と前景に分解されたマスク、背景のみの出力結果、背景と前景を合成した出力結果、Ground truthを示す
photo 本手法のアーキテクチャ。右が2つの生成器があるモデル

 学習したモデルを従来方式と比較した結果、実画像との類似性を評価するFIDスコアで、より高い数値を示した。

photo 意味と属性の操作例。左端の列が入力画像、右端の列がGround truth、中央列が本手法の出力結果(Visual Genomeデータセットを使用)
photo テキストを用いたスタイル操作例。左端の列が入力画像、右端の列がGround truth、中央列が本手法の出力結果 (COCOデータセットを使用)

Copyright © ITmedia, Inc. All Rights Reserved.