ITmedia NEWS > AI+ >
ニュース
» 2020年11月05日 07時59分 公開

Innovative Tech:複数人隠れていても検出できるポーズ推定 Amazonが開発

オクルージョンがあっても正しく認識するための手法。

[山下裕毅,ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 米AmazonのAWS Rekognition研究チームが開発した「Combining detection and tracking for human pose estimation in videos」は、動画から多人数の姿勢(ポーズ)を検出する機械学習ベースの手法だ。人が重なりあって少ししか見えない人物も検出できるという。

photo 本手法によるポーズ推定の検出結果

 複数人のポーズトラッキングは、ビデオフレーム内のすべての人の体の関節を検出し、時間の経過とともにそれらを正しくリンクさせるという二重のタスクで構成される。

 人を検出する方法には、最初に画像内の全ての人を検出してからバウンディングボックス(領域)内で各人の体の関節を予測する「トップダウン型アプローチ」と、最初に個々の身体の関節を検出してからグループ化する「ボトムアップ型アプローチ」がある。今回の手法では高い精度を発揮している前者を採用した。

 しかし、トップダウン型アプローチでは、人が重なり合って一部が隠れてしまうこと(オクルージョン)が多発するため安定しないのが現状。そこで今回は、取得した人物のバウンディングボックスを経時的に動かすアプローチを取った。フレーム内で検出を見逃しても、検出に成功した前後のフレーム上の人物のバウンディングボックスを動かすことで補填する。これはフレーム前後で、その人物がほぼ同じ位置に存在するだろうと仮定することで行える手法だ。

photo (上段)既存の検出器では人同士が重なると後ろの人の姿勢は捉えることができない(下段)今回の手法は隠れていても検出できる。点線のバウンディングボックスは見落とされていた領域

 具体的な検出の流れを説明する。最初に、各ビデオクリップのキーフレームにいる人物候補を全て検出し、バウンディングボックス内の領域を切り取ることでTubesを作成する。このチューブを入力にしたHRNetベースのClip Tracking Networkが、人物の身体関節の位置をビデオクリップ全体にわたって推定する。これをTrackletsと呼んでいる。次に、重なり合うフレームのポーズに基づいて、これらTrackletsを縫い合わせる仕立て屋のような働きを行う。

photo 本手法の流れ

 これにより部分的に隠れた人物でも、隣接するフレームからの情報を基に予測して検出できるようになった。

 動画はこちらから

Copyright © ITmedia, Inc. All Rights Reserved.