このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
米ペンシルベニア大学と中国・浙江大学の研究チームが開発した「Coherent Reconstruction of Multiple Humans from a Single Image」は、1枚の写真から複数人の3次元姿勢と形状を推定する、深層学習を用いた手法だ。
画像内の人物の姿勢を3次元で推定する従来の研究では、人や物が重なっていたりすると相互干渉や奥行きの順序の不整合などの問題に悩まされていた。
今回の手法では、シーン内で重なって見えない領域(オクルージョン)があっても、正確な3次元モデルを生成できる深層学習アーキテクチャを提案した。
今回のアーキテクチャは、R-CNN(Regions with Convolutional Neural Network)ベースのフレームワークを採用し、ResNet50、領域提案ネットワーク、SMPLパラメトリック(非着衣型の人体モデル)などで構成している。
まずシーン内の全ての人物を検出し、SMPLパラメータをトップダウンアプローチで推定する。次に、人々が互いに重なり合うのを避ける部分と、人物同士の奥行きの順番を考慮する部分を学習する。深度順序付けは、領域分割を使用している。
これにより学習したモデルは、1枚の画像からオクルージョンを考慮した複数人の3次元ポーズと形状を推定することに成功。出力結果をさまざまなベンチマークで評価した結果、既存の類似モデルよりも定性的、定量的に良好な成果を得られたとしている。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR