写真に映った人の服装、体型、姿勢、動きを同時編集　深層学習で隠れた部分も推測：Innovative Tech

» 2020年09月11日 17時19分公開

[山下裕毅，ITmedia]

Innovative Tech：

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

　中国企業のYitu Technologyと北京航空航天大学による研究チームが開発した「Recapture as You Want」は、カメラで撮影したポートレート画像内の人を、深層学習を用いて別の服装、体型、姿勢、動きに変換する手法だ。

ポートレート画像に映った人物の服装、体型、姿勢、動きを編集できる

　例えば、短パンを長ズボンに、下げている腕を上げる、足を細くする、ダンスのポーズを模倣するといった変更が可能。元の人物画像では隠れている部分や衣服も適切に推測し、全体的なまとまりも保つ。

体型の変化と、服装の変化を編集した出力結果

　姿勢や動きを制御する手法としては、画像内に映った人物の関節と骨格を検出して姿勢情報を転送する姿勢推定モデルがこれまでの主流だったが、今回の手法は姿勢推定に加えてセマンティックセグメンテーションを組み込んでいる。セマンティックセグメンテーションとは、画像内のピクセルをその意味に基づいて、カテゴリ分類する手法。今回は身体パーツに合わせた分類を行っている。

　今回のモデルは、GAN（Generative Adversarial Network）をベースにSAT（Semantic-aware Attentive Transfer）とLGR（Layout Graph Reasoning）の2つのモジュール設計から構成されている。

　SATは、意味を考慮して生成した身体パーツごとの特徴量をソースからターゲットへ伝達する役割を担う。本来の外観構造は維持するよう設計されており、動いても構造と外観を良好な状態に保持する。

　LGRは、目に見えない身体パーツを推定する役割を担う。身体情報から関連する全パーツの特徴を結ぶレイアウトグラフを構築し、パーツ間の関係を推定する。

フレームワークの概要。右側にSATとLGRモジュールの詳細が示されている

　GANで使われるモジュールの1つである生成器で服装、体型、姿勢、動きを複合的に編集し、最終的に識別器モジュールとの敵対で現実的な出力結果を生成できるよう訓練する。学習用にDeepFashionとMarket-1501データセットを使用。学習したモデルは、類似研究と比較しても定性、定量実験でより良好な結果を示したとしている。