ITmedia NEWS > AI+ >
ITmedia AI+ AI活用のいまが分かる

ヒトのAIモデルからチンパンジーの姿勢と3次元構造を推定 Facebookなどが開発Innovative Tech

» 2020年10月30日 10時57分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 独ルプレヒト・カール大学ハイデルベルク、米FacebookのAI Research、独マックス・プランク進化人類学研究所による研究チームが開発した「Transferring Dense Pose to Proximal Animal Classes」は、動画からチンパンジーの姿勢推定を行い3次元形状を取得する深層学習フレームワークだ。人物のデータセットから学習したAIモデルを動物に転用する「転移学習」の手法を使って効率的に学習を行う。

photo 動物クラスの姿勢推定を行うため、既存の人物データソースを用いる

 近年、深層学習を用いて人の姿勢や3次元形状を高精細かつかつ正確に認識できるようになったが、その背景には詳細にラベルが付けられた大規模な人物データセットの存在がある。一方で、人以外の何百万もの動物種に対してのデータセットやモデルは少ない。また、これらのデータセットをゼロから作成するには膨大な労力を必要とするため現実的ではない。

 そこで研究チームは、ラベル付きの人物データセットを人以外の動物クラスに転用し、学習するアプローチで効率化を目指した。今回は人に近いチンパンジーで、DensePose(動画内に映る人物領域の3次元表面を推定する深層学習ネットワーク)モデルを作成する。

 5万人分のラベル付き人物データセット「DensePose-COCO」をチンパンジーに適応させるために、R-CNN(Regions with Convolutional Neural Network)アーキテクチャとファインチューニングのための疑似ラベリングを導入する。

  ファインチューニングのために、人物データセットによる学習済みモデルからチンパンジーの画像に疑似ラベルを生成し、再学習を行う。擬似ラベルは、モデルのすべての構成要素(セグメンテーションやUVマップなど)に対して生成する。

photo (a)オリジナルのDensePose R-CNNアーキテクチャ(b)チンパンジークラスの改良したR-CNNアーキテクチャ

 これにより学習したモデルは、動画からチンパンジーを検出し、セグメンテーションマスクの計算を行い、各前景ピクセルのためのUV座標を取得する。

photo 左列が入力画像、右側が出力結果

 今回の研究では、人物のデータソースを他の動物種に拡張する学習法を提案した。また、既存の物体検出、セグメンテーションなどは、クラス間の有意差があるにもかかわらず、チンパンジーのような近位の動物クラスにうまく移行できることを実証した。

Copyright © ITmedia, Inc. All Rights Reserved.