ITmedia NEWS > 科学・テクノロジー >

映像内の猫や人から3Dアニメーションを作成 米Metaの研究機関などが開発Innovative Tech

» 2022年01月11日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 米Meta(元Facebook)の研究機関のMeta AIとMeta Reality Labs、米カーネギーメロン大学の研究チームが開発した「BANMo: Building Animatable 3D Neural Models from Many Casual Videos」は、単眼カメラで撮影した何気ない動画複数から、映像内に映る変形可能な非剛体オブジェクト(今回は人と四足歩行の動物)をアニメーション可能な3Dモデルに再構築するシステムだ。映像内の動く猫や人などをウェイト調整を含んだ関節付き3Dモデルとして高忠実度に再現する。

猫などの動く物体を撮影した複数の動画を与えると、アニメーション可能な3Dモデルを再構築する

 剛体のシーンでは、従来のSfM(Structure from Motion)アプローチを利用し、Webで公開している画像群でランドマークや都市全体の3Dモデルを構築できるが、動画から変形可能な非剛体オブジェクトを3Dモデルに変換するのは難しい。

 その場合は、周囲に大量の同期カメラやセンサーを設置したリグ内で撮影するか、SMPLなどの事前に定義した3D形状テンプレートに依存するのがこの分野では一般的だろう。しかし、前者では大規模な設備を必要とし未知なる映像に対応できず、後者では正確な復元や素早い動きに対応できず、どちらも課題が残る。

 この手法は、これらを使用せず、何気ないRGBビデオ複数(数千フレームからなる非同期映像)から対象となる物体を3Dアニメーション化する手法を提案する。

 具体的には、微分可能なボリュームレンダリングに基づき、ピクセルカラーや透明度、オプティカルフロー、高次元の特徴記述子など、観測した画像に含まれる複数の手掛かりとの間の一貫性を確保するように最適化する。

 物体の関節を表現するために、新しいニューラルブレンドスキニングモデルを使い、カメラ空間と正準空間の間で3Dポイントを変換する。特定のインスタンスに先立って、DensePoseを微調整することで、何千もの同期していないビデオフレームを同じ正準空間に統合し詳細なジオメトリを再構築する。

システムの概要

 このようにして出力した3Dモデルは精度が高く、先行研究の類似手法で出力した結果と比べても、より高い忠実度を示した。

Source and Image Credits: Yang, Gengshan, Minh Vo, Natalia Neverova, Deva Ramanan, Andrea Vedaldi, and Hanbyul Joo. "BANMo: Building Animatable 3D Neural Models from Many Casual Videos." arXiv preprint arXiv:2112.12761 (2021).



Copyright © ITmedia, Inc. All Rights Reserved.