人体の133カ所を一度に姿勢推定する技術　香港大など開発：Innovative Tech

» 2020年12月08日 16時42分公開

[山下裕毅，ITmedia]

Innovative Tech：

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

　香港大学、中国SenseTime Research、香港中文大学、豪シドニー大学による研究チームが開発した「Whole-Body Human Pose Estimation in the Wild」は、顔、手、胴体、足を含む人体の2次元姿勢を一度に推定する技術だ。

顔、手、胴体、足を含む人体の姿勢を一度に推定する

　これまでの手法では、顔、手、体の異なるデータセットに対して、訓練された異なる学習モデルを組み立てる必要があり、データセットのバイアスやモデルの複雑さに悩まされていた。

　今回のアプローチでは、顔、手、胴体、足などのキーポイントをアノテーション（情報タグ付け）した大規模な全身姿勢の推定用データセット「COCO-WholeBody」を提案する。これは人物、顔、左手、右手の4種類のバウンディングボックス（境界）と、133個のキーポイント（身体17個、足6個、顔68個、手42個）をアノテーションするCOCOデータセットを拡張したものだ。

身体17個、足6個、顔68個、手42個、合計133個のキーポイントをアノテーションする

　COCO-WholeBodyデータセットを用いることで、身体部位間の相関関係を考慮した全身の姿勢推定を可能にし、より信頼性の高い人体姿勢推定ネットワークを開発できる。顔のランドマーク定位や手のキーポイント推定などのさまざまなタスクのための事前学習データセットとして利用できることを実証したという。

　しかし、胴体や足などの大ざっぱな身体部位と、手や顔などの細かい身体部位ではスケールが異なるため一度に処理して直接予測する場合、最適な性能は出ない。この問題を解決するために、全身の姿勢推定におけるスケールを効果的に扱うためのネットワーク「ZoomNet」を提案した。

　ZoomNetは、複数のネットワークを組み立てる従来のアプローチとは異なり、エンドツーエンドで学習可能な単一のトップダウン型ネットワークを持つ。入力すると、最初に検出しやすい身体キーポイントを特定し、手と顔の大まかな位置を推定。次に、手や顔の領域に焦点を当て、正確な定位のために高解像度の特徴量を用いてキーポイントを予測する。