実写映像の人の動きを3Dキャラクターで空間ごと再現、ソウル大学校が技術開発：Innovative Tech

韓国のソウル大学校の研究チームは、深層強化学習に基づいて、物理学の事前知識を最大限に活用し、単眼カメラで撮影した実写映像から人間の3Dモーションを空間ごと再構築するシステムを開発した。

LINE

Hatena

Innovative Tech：

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

　韓国のソウル大学校の研究チームが開発した「Human Dynamics from Monocular Video with Dynamic Camera Movements」は、深層強化学習に基づいて、物理学の事前知識を最大限に活用し、単眼カメラで撮影した実写映像から人間の3Dモーションを空間ごと再構築するシステムだ。

　スポーツやダンス、パルクールなどの非常に激しい人間の動きでも、もっともらしいシーンの配置と、シーン内の一貫した人間の動きの両方を同時に再構築する。

障害物の上を飛び回るパルクールを再現した様子

　実写映像から人間の動きを3Dキャラクターに再現する研究は数多く進んでいるが、これまでの研究では、人間のローカル座標における関節角度と位置の再構成に焦点が当てられており、グローバル座標での観点は考慮されていなかった。撮影視点が1カ所の静的であれば、グローバル座標の再構成も可能だが、撮影視点が動く動的な映像だと困難であった。

　この研究では、カメラが動く実写映像でも、グローバル座標を考慮した3Dキャラクターの動きの再構築を行うシステムを提案する。システムは、2D／3Dポーズ推定器や接触推定器、ポリシー学習器、シーンジオメトリ構築器から構成しており、ユーザーが与えたキャラクターと環境の間の相互作用に関する情報を考慮して、映像内の障害物と一致する3Dキャラクターの動きを生成する制御ポリシーを学習する。

　入力には、単眼カメラ1台で撮影したビデオクリップとシミュレートしたキャラクターモデル、障害物用の単純なオブジェクトとその位置の3つを利用する。学習したポーズ推定器は、2Dと3Dにおける人の関節位置を予測。

　接触推定器は、身体と物体の接触がいつ、どこで起こるかを予測。最後に、全ての関節と接触の情報をもとに、モーションとグローバルな基準座標系におけるシーンの配置を学習する。骨格のグローバルな位置と向きは、モーションの学習中に自動的に回復する。

システムの概要図

　注目したいのは、足と地面、または足と障害物の接触を検出するための接触推定器。これにより、地面から少し浮いた足や物体にめり込んだ足などがなく、常に地面や物体にピタッと接触した状態を作り出し、結果として自然な動きを表現している。十分な学習データがないため、手や膝、肘の接触推定量を学習することは容易ではないという。

高跳びやパルクールの連続シーン

Source and Image Credits: Ri Yu, Hwangpil Park, and Jehee Lee. 2021. Human dynamics from monocular video with dynamic camera movements. ACM Trans. Graph. 40, 6, Article 208 (December 2021), 14 pages. DOI:https://doi.org/10.1145/3478513.3480504

実写映像の人の動きを3Dキャラクターで空間ごと再現、ソウル大学校が技術開発：Innovative Tech

Innovative Tech：

関連記事

関連リンク