重なってても大丈夫　1枚の写真から複数の人を3Dモデル化：Innovative Tech

人体モデルを1枚の写真から、しかも複数の人が重なっている状態でも取得できる。

[山下裕毅，ITmedia] PC用表示関連情報

LINE

Hatena

Innovative Tech：

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

　米ペンシルベニア大学と中国・浙江大学の研究チームが開発した「Coherent Reconstruction of Multiple Humans from a Single Image」は、1枚の写真から複数人の3次元姿勢と形状を推定する、深層学習を用いた手法だ。

（左）入力画像（右）本手法の出力結果

　画像内の人物の姿勢を3次元で推定する従来の研究では、人や物が重なっていたりすると相互干渉や奥行きの順序の不整合などの問題に悩まされていた。

　今回の手法では、シーン内で重なって見えない領域（オクルージョン）があっても、正確な3次元モデルを生成できる深層学習アーキテクチャを提案した。

　今回のアーキテクチャは、R-CNN（Regions with Convolutional Neural Network）ベースのフレームワークを採用し、ResNet50、領域提案ネットワーク、SMPLパラメトリック（非着衣型の人体モデル）などで構成している。

本手法のパイプライン

　まずシーン内の全ての人物を検出し、SMPLパラメータをトップダウンアプローチで推定する。次に、人々が互いに重なり合うのを避ける部分と、人物同士の奥行きの順番を考慮する部分を学習する。深度順序付けは、領域分割を使用している。

　これにより学習したモデルは、1枚の画像からオクルージョンを考慮した複数人の3次元ポーズと形状を推定することに成功。出力結果をさまざまなベンチマークで評価した結果、既存の類似モデルよりも定性的、定量的に良好な成果を得られたとしている。

（左）入力画像（中央）ベースラインのモデルの出力結果（右）本手法の出力結果

（左）入力画像（中央）ベースラインのモデルの出力結果（右）本手法の出力結果