ITmedia NEWS > STUDIO >
ITmedia AI+ AI活用のいまが分かる

人体の133カ所を一度に姿勢推定する技術 香港大など開発Innovative Tech

» 2020年12月08日 16時42分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 香港大学、中国SenseTime Research、香港中文大学、豪シドニー大学による研究チームが開発した「Whole-Body Human Pose Estimation in the Wild」は、顔、手、胴体、足を含む人体の2次元姿勢を一度に推定する技術だ。

photo 顔、手、胴体、足を含む人体の姿勢を一度に推定する

 これまでの手法では、顔、手、体の異なるデータセットに対して、訓練された異なる学習モデルを組み立てる必要があり、データセットのバイアスやモデルの複雑さに悩まされていた。

 今回のアプローチでは、顔、手、胴体、足などのキーポイントをアノテーション(情報タグ付け)した大規模な全身姿勢の推定用データセット「COCO-WholeBody」を提案する。これは人物、顔、左手、右手の4種類のバウンディングボックス(境界)と、133個のキーポイント(身体17個、足6個、顔68個、手42個)をアノテーションするCOCOデータセットを拡張したものだ。

photo 身体17個、足6個、顔68個、手42個、合計133個のキーポイントをアノテーションする

 COCO-WholeBodyデータセットを用いることで、身体部位間の相関関係を考慮した全身の姿勢推定を可能にし、より信頼性の高い人体姿勢推定ネットワークを開発できる。顔のランドマーク定位や手のキーポイント推定などのさまざまなタスクのための事前学習データセットとして利用できることを実証したという。

 しかし、胴体や足などの大ざっぱな身体部位と、手や顔などの細かい身体部位ではスケールが異なるため一度に処理して直接予測する場合、最適な性能は出ない。この問題を解決するために、全身の姿勢推定におけるスケールを効果的に扱うためのネットワーク「ZoomNet」を提案した。

 ZoomNetは、複数のネットワークを組み立てる従来のアプローチとは異なり、エンドツーエンドで学習可能な単一のトップダウン型ネットワークを持つ。入力すると、最初に検出しやすい身体キーポイントを特定し、手と顔の大まかな位置を推定。次に、手や顔の領域に焦点を当て、正確な定位のために高解像度の特徴量を用いてキーポイントを予測する。

photo ZoomNetの概要図 

 実験の結果、ZoomNetはCOCO-WholeBodyデータセットにおいて、既存の手法を大幅に上回る性能を発揮したとしている。

photo 本手法の出力結果
photo ZoomNet、OpenPose、Single-Networkとの定性的な比較

Copyright © ITmedia, Inc. All Rights Reserved.