AirTag付けてなくても“あれどこに置いたっけ”を探す「GO-Finder」　東大が全映像記録による検索技術開発：Innovative Tech

» 2021年05月13日 09時37分公開

[山下裕毅，ITmedia]

Innovative Tech：

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

　東京大学生産技術研究所の研究チームが開発した「GO-Finder」は、“突発的ななくし物”を探せる、紛失物探し支援システムだ。首にぶら下げたウェアラブルカメラで手に持った物体を常に撮影し、どこに収納したかを記録する。スマートフォンでその物が最後に映っていたシーンを確認し、思い出すのに役立てる。

首にぶら下げたウェアラブルカメラで手に持った物体を撮影し記録する

記録した画像群から探したい物体が写る画像を選択し、ポップアップされる物体の最終シーンを確認し思い出すのに役立てる

　どこに置いたかを忘れて探し回った経験は、多くの人が体験しているだろう。見つからなければ膨大な時間を費やしてしまう。この課題に対し、多くの技術的解決が提案されてきたが、どれもなくす物の事前登録やタグ付けを必要とし、ユーザーの手間が発生していた。事前登録が必要だと、予期していない“突発的な紛失物”の探索には使えないというデメリットもあった。

　今回はこうした“突発的な紛失物”に対応し、事前登録不要で紛失物を探すシステムを提案する。システムは撮影機材のウェアラブルカメラ、画像処理を行うコンピュータ、検索に使うスマートフォンで構成する。

システムの概要図

　首からぶら下げるウェアラブルカメラは、ユーザーの目の前に映る物体を撮影する。このままでは大量の画像群が記録されてしまうので、着用者が手に持った物体のみを撮影する方法を採用し、手が接触していると判断した場合のみ記録する。

　物体候補に絞った撮影の次は、グループ分けを行う。時系列に並ぶ画像群から物体候補ごとにグループを作り適切に振り分ける。隣接するフレーム間において類似領域が多いと同じグループと見なし、隣接せず物体の追跡が途切れた際は、最新の検出と過去に作成したグループとのマッチングを深層学習で行い統合するかどうか決定する。

物体検出からクラスタリングまでのワークフロー。右端の赤い四角が各物体の最終画像を示す

　これによって物体候補の画像群は、種別ごとのグループに整理される。この整理は分類する効果だけでなく、各物体候補が最後に出現した瞬間の画像を特定する。物体の最後のシーンはユーザーが最も欲しい情報なので、非常に重要な処理になる。

システムは画像群からグループ分けを行い、その物体の最終出現フレームを特定する

　このように自動撮影された物体候補は、サムネイル画像の一覧としてスマートフォンに表示される。ユーザーは最新順に並んだサムネイル画像の一覧をスクロールし、その物体が写る画像を探す。お目当てのサムネイル画像が見つかり選択すると、その物体が最後に出現した画像が拡大表示されるので、物体がある場所を思い出すのに役立つ。

スマートフォンに実装されるインタフェース

　評価実験では、研究室を舞台に16個のさまざまな種類の物体をさまざまな場所に収納し、時間を置いた後に探すテストを行なった。結果は、本システムが提示する画像を見て探した正解率の方が、頭の記憶だけで探した正解率よりも良好な数値を示した。システム自体は16個中、平均13から14個の位置を正しく提示できた。