Innovative Tech:
このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
米AmazonのAWS Rekognition研究チームが開発した「Combining detection and tracking for human pose estimation in videos」は、動画から多人数の姿勢(ポーズ)を検出する機械学習ベースの手法だ。人が重なりあって少ししか見えない人物も検出できるという。
複数人のポーズトラッキングは、ビデオフレーム内のすべての人の体の関節を検出し、時間の経過とともにそれらを正しくリンクさせるという二重のタスクで構成される。
人を検出する方法には、最初に画像内の全ての人を検出してからバウンディングボックス(領域)内で各人の体の関節を予測する「トップダウン型アプローチ」と、最初に個々の身体の関節を検出してからグループ化する「ボトムアップ型アプローチ」がある。今回の手法では高い精度を発揮している前者を採用した。
しかし、トップダウン型アプローチでは、人が重なり合って一部が隠れてしまうこと(オクルージョン)が多発するため安定しないのが現状。そこで今回は、取得した人物のバウンディングボックスを経時的に動かすアプローチを取った。フレーム内で検出を見逃しても、検出に成功した前後のフレーム上の人物のバウンディングボックスを動かすことで補填する。これはフレーム前後で、その人物がほぼ同じ位置に存在するだろうと仮定することで行える手法だ。
具体的な検出の流れを説明する。最初に、各ビデオクリップのキーフレームにいる人物候補を全て検出し、バウンディングボックス内の領域を切り取ることでTubesを作成する。このチューブを入力にしたHRNetベースのClip Tracking Networkが、人物の身体関節の位置をビデオクリップ全体にわたって推定する。これをTrackletsと呼んでいる。次に、重なり合うフレームのポーズに基づいて、これらTrackletsを縫い合わせる仕立て屋のような働きを行う。
これにより部分的に隠れた人物でも、隣接するフレームからの情報を基に予測して検出できるようになった。
関連記事
- 刺繍スピーカー、聞こえる音と超音波を出力 Lo-Fi音楽の再生や通知音に活用
スピーカーを縫い付けるわけではなく、糸自体がコイルになる。 - マイ3Dプリンタは失敗できる、それが楽しい 熱溶解積層の立体製造機で40時間の造形に挑戦した
3Dプリンタで一緒に失敗してみませんか? - 落書きを即3Dモデル化、つまんで動かし即アニメーションに Googleなど「Monster Mash」開発
簡単な操作で手描きのラフスケッチをアニメーションにできる。 - 「恋人つなぎ」で歩けるハンドロボット 手汗、匂いもある「お散歩彼女」 岐阜大学が開発
吉良吉影にお勧めしたいロボットが登場した。 - 自撮り画像を他人が撮ったように変換する技術「Unselfie」 Adobeなど開発
自撮り写真だと丸分かりにならないよう修正ができる機能。 - ヒトのAIモデルからチンパンジーの姿勢と3次元構造を推定 Facebookなどが開発
人間のAIモデルを動物に転移させる新技術。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.