ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

“目の反射”で相手が何を見ているか特定するAI 眼球に映る画像を3Dシーンで復元 米研究者らが開発Innovative Tech

» 2023年06月26日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2

 米メリーランド大学カレッジパーク校に所属する研究者らが発表した論文「Seeing the World through Your Eyes」は、瞳に映る画像を3Dシーンで再構築する学習モデルを提案した研究報告である。カメラで目の反射光を複数回取得し、それによって眼球に写る画像を3D形式で再現する。

目に反射する画像を3Dシーンでレンダリングする

 瞳の中には、見ているシーンが鏡のように写っている。今回の手法では、瞳に映った眼球画像を使用して「Neural Radiance Fields」(NeRF)を使ってシーンを3Dで再現する。

 通常、NeRFではカメラを移動させて異なる角度から複数枚の画像を撮影し、それを使って3Dモデルを再構築する。しかし、今回はカメラを動かす代わりに固定し、頭の動きによって変化するさまざまな目の角度から複数枚の画像を収集して入力データとして使用する。

(a)一般的なNeRFキャプチャーセットアップでは、再構成のために複数のポーズ画像が必要、(b)この手法のセットアップでは、動いている人物の目から反射する光を通して、シーンの多視点情報を収集する

 観測した反射光にNeRFを訓練しても、2つの要因によって不十分になる。まず、通常の鮮明な画像とは異なり、目の画像は虹彩(瞳孔の後ろにある茶色い領域)のテクスチャと混ざり合っているため、3D再構成が困難である。

 次に、目は小さく、画像から正確に位置を特定することが難しい。この2つの問題を解決するために、この手法では虹彩のテクスチャから反射を分離する方法を採用し、また角膜の姿勢推定の精度を向上させる技術を導入する。これにより、高い精度で鮮明な3Dシーンを再現できる。

提案手法の概要図

 この手法の性能と有効性を評価するために、実際に複数の参加者の目を撮影した画像群から3Dシーンをレンダリングする。参加者にはカメラの視野内で動いてもらい、1シーンあたり5〜15フレームを撮影する。

 レンダリングした結果、単純にNeRFを適応する方法よりも、虹彩の分離と角膜の姿勢推定を最適化したこのアプローチの方が鮮明に復元できることが分かった。

実際に再構成した3Dシーンの一例

Source and Image Credits: Alzayer, Hadi, Kevin Zhang, Brandon Feng, Christopher Metzler, and Jia-Bin Huang. “Seeing the World through Your Eyes.” arXiv preprint arXiv:2306.09348(2023).



Copyright © ITmedia, Inc. All Rights Reserved.