ITmedia NEWS > STUDIO >
ニュース
» 2020年12月08日 16時42分 公開

Innovative Tech:人体の133カ所を一度に姿勢推定する技術 香港大など開発

顔や手の細かい部分まで推定するための工夫を凝らした深層学習技術。

[山下裕毅,ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 香港大学、中国SenseTime Research、香港中文大学、豪シドニー大学による研究チームが開発した「Whole-Body Human Pose Estimation in the Wild」は、顔、手、胴体、足を含む人体の2次元姿勢を一度に推定する技術だ。

photo 顔、手、胴体、足を含む人体の姿勢を一度に推定する

 これまでの手法では、顔、手、体の異なるデータセットに対して、訓練された異なる学習モデルを組み立てる必要があり、データセットのバイアスやモデルの複雑さに悩まされていた。

 今回のアプローチでは、顔、手、胴体、足などのキーポイントをアノテーション(情報タグ付け)した大規模な全身姿勢の推定用データセット「COCO-WholeBody」を提案する。これは人物、顔、左手、右手の4種類のバウンディングボックス(境界)と、133個のキーポイント(身体17個、足6個、顔68個、手42個)をアノテーションするCOCOデータセットを拡張したものだ。

photo 身体17個、足6個、顔68個、手42個、合計133個のキーポイントをアノテーションする

 COCO-WholeBodyデータセットを用いることで、身体部位間の相関関係を考慮した全身の姿勢推定を可能にし、より信頼性の高い人体姿勢推定ネットワークを開発できる。顔のランドマーク定位や手のキーポイント推定などのさまざまなタスクのための事前学習データセットとして利用できることを実証したという。

 しかし、胴体や足などの大ざっぱな身体部位と、手や顔などの細かい身体部位ではスケールが異なるため一度に処理して直接予測する場合、最適な性能は出ない。この問題を解決するために、全身の姿勢推定におけるスケールを効果的に扱うためのネットワーク「ZoomNet」を提案した。

 ZoomNetは、複数のネットワークを組み立てる従来のアプローチとは異なり、エンドツーエンドで学習可能な単一のトップダウン型ネットワークを持つ。入力すると、最初に検出しやすい身体キーポイントを特定し、手と顔の大まかな位置を推定。次に、手や顔の領域に焦点を当て、正確な定位のために高解像度の特徴量を用いてキーポイントを予測する。

photo ZoomNetの概要図 

 実験の結果、ZoomNetはCOCO-WholeBodyデータセットにおいて、既存の手法を大幅に上回る性能を発揮したとしている。

photo 本手法の出力結果
photo ZoomNet、OpenPose、Single-Networkとの定性的な比較

Copyright © ITmedia, Inc. All Rights Reserved.