ITmedia NEWS > AI+ >
ITmedia AI+ AI活用のいまが分かる

動画内の素早い動きから3D人体モデルを連続生成 深層学習を活用Innovative Tech

» 2020年08月05日 21時30分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 ドイツの研究機関Max Planck Institute for Intelligent SystemsとMax Planck ETH Center for Learning Systemsによる研究チームが開発した「VIBE」は、深層学習を用いることで、動画内で動く人の3次元姿勢と形状を連続的に推定する技術だ。

photo (上段)既存の手法で動画から生成した人体の3次元モデル  (下段)VIBEを用いて生成した人体の3次元モデル

 動画から人体の3次元モデルを連続的に推定する手法はこれまでにも研究されてきたが、複雑な動きの場合には正確性が失われ、細部でアーティファクト(ゆがみやズレ等)が起きていた。この課題に対して、これまでの研究成果を上回る高品質な3次元モデルを出力可能にしたのが今回の手法だ。

 アーティファクトが少ない3次元モデルを生成するために、大規模な3次元モーションデータセット「AMASS」を採用。このデータセットを最大限活用するために、 GAN(Generative Adversarial Network)を用いて学習する。

 具体的には、入力動画からCNN(Convolutional Neural Network)を用いて予測した各フレームごとの3次元モデル(SMPL=Skinned Multi-Person Linearモデルのパラメータ)と、AMASSデータセットからの3次元モデルを敵対させることで精度を高める手法を採用した。

photo VIBEのアーキテクチャ

 学習したモデルは、人物の3次元姿勢と形状をより正確に反映し、ダンスのように素早い動きでも運動学的にもっともらしい動きの連続的なメッシュを生成する。

photo VIBEの出力結果

Copyright © ITmedia, Inc. All Rights Reserved.