ITmedia NEWS > AI+ >
ITmedia AI+ AI活用のいまが分かる

動画から手の動きを3Dデータ化、ハンドジェスチャーも認識 英ICLなどが開発Innovative Tech

» 2020年11月26日 13時22分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 英インペリアル・カレッジ・ロンドン(ICL)、スイス・ルガーノ大学、英Ariel AI、米Twitterによる研究チームが開発した「Weakly-Supervised Mesh-Convolutional Hand Reconstruction in the Wild」は、動画から人の手の3次元モデルを予測する、深層学習を用いた手法だ。1台の単眼カメラで撮影したRGB映像から、手の動的3次元メッシュを生成する。

photo (左)YouTubeからの入力動画(右)本手法を用いて推定した手の3次元メッシュ出力結果

 自然環境での動作を想定しており、主にYouTubeの動画から収集した手の動きの大規模データセットを用いて学習を行う。さらに収集した動画から自動的にデータを生成するシステムを構築し、訓練とテスト用のデータセットを作成している。

 画像座標系でメッシュを直接再構築する「エンコーダ・デコーダ」モデルを採用。OpenPoseにより手のキーポイントを検出し、変形可能なモデルを反復的に合致させることで3次元形状を生成する。

photo 本手法のパイプライン

 学習したモデルを異なるデータセットで評価した結果、非常にシンプルなモデルながら、ポーズ推定とメッシュ再構築で、従来の類似モデルを大きく上回る性能を示したという。

photo 入力画像と本手法の出力結果

 スマートフォンを使用してリアルタイムで手のトラッキングを行うデモにも成功しており、ARアプリケーションのハンドジェスチャー入力などを実証している。

photo リアルタイムで手の動きを3次元メッシュ化した出力結果

Copyright © ITmedia, Inc. All Rights Reserved.