深層学習で着せ替えも簡単に　画像の一部だけを入れ替え合成する技術「SMIS」：Innovative Tech

» 2020年09月04日 07時49分公開

[山下裕毅，ITmedia]

Innovative Tech：

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

　中国の華中科技大学と北京大学による研究チームが開発した「Semantically Multi-modal Image Synthesis」（SMIS）は、画像をオブジェクトごとにクラス分けし、部分的に画像を入れ替えて合成する深層学習ベースの手法だ。

　画像のクラス分けには、ラベルを使って関連付けを行うセマンティックセグメンテーションを用いる。各画素に何が写っているのかを1つ1つ推定し、画像内で領域を分類しクラス分けする。

上段行がクラス分けをした入力ラベル画像、その他がSMISで生成した画像

　各クラスに応じたコントローラーで調整することで、対応する部分だけ画像を変換する。このような画像合成では従来、各クラスごとに生成ネットワークを構築し、異なるネットワークの出力を統合して最終的な画像を生成する手法が用いられてきた。

　しかしこの手法だと、クラス数が多くなるにつれて学習時間が増加し精度が落ちてしまう。今回の手法は、クラスの制御を従来の畳み込みからグループ畳み込みに変更し、生成プロセスを1つのモデルに統一するネットワークGroupDNet（Group Decreasing Network）により、その課題に挑戦する。

GroupDNetアーキテクチャ

　GroupDNetは、クラス間で類似する場合に（草の色と木の葉の色は似ている等）、異なるクラス間の相互相関を構築できるような能力を与え、全体的な画質を向上させる。これは、クラス数が多い場合の計算量の軽減にもつながる。これにより、意味ラベルを別の画像に変換しやすくなり、多くのクラスを持つデータセットに対しても高品質な結果を得ることができた。

　いくつかのデータセットを用いた結果でも、従来の最先端の手法と遜色のない性能を維持した。また、今回の手法は生成処理を制御しやすいため、異なるクラスを同時に変換する複合的画像合成、分類したクラスを別の意味ラベルに変換する（建物を木に変える、何もないところにベットを挿入する等）、画像から別の画像へ徐々に変化させていくモーフィングなど、さまざまな応用が可能だ。