ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

Googleストリートビューからリアルなバーチャル3Dシーンを自動作成 Googleとトロント大が開発Innovative Tech

» 2022年01月31日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 米Google Researchとカナダ・トロント大学の研究チームが開発した「Urban Radiance Fields」は、Googleストリートビューなどのスキャンプラットフォームで取得できる情報を基に、複数の視点の画像から合成して作り出す新たな視点画像と3D再構成を自動作成する手法だ。

この手法の概要。都市部で撮影したパノラマRGB画像と3D点群データを使い、新しいビュー合成と3D再構成を行う

 特定シーンの異なる角度から撮影した複数枚の画像を組み合わせる手法と違い、今回は常に動いているカメラから撮影する、スキャンプラットフォームの取得データ画像を入力に使う。そのため、常に変わるカメラ位置や太陽の位置、画像間の露出の変化、ほとんどの画像に映り込む空の画像の処理、同じ構造物でもカメラごとに色が異なるなど、これまでよりも難しいアプローチになる。

  今回は、LiDAR(周囲の物体までの距離を光りを当てて測定するセンサー)搭載のカメラリグでキャプチャーしたデータを入力に使用するのだが、LiDARで取得したデータは、シーンの遠方では解像度が低くなり、シーンの一部(光沢のある表面や透明な表面の場合など)では完全に消失してしまう課題を抱えている。

 研究では、これら課題を解決し、よりリアルな3Dシーンの再構築を目指す。システムでは、NeRF(Neural Radiance Fields)を拡張したモデルを使用。NeRFは、Googleなどが先行研究で開発した、異なる視点の複数枚の画像を手掛かりに、新規の視点画像を合成して生成する技術のこと。今回は、このNeRFをベースに3つの拡張機能を追加した。

 1つ目は、RGB画像と非同期に取得されたLiDARデータを入力に、大規模で複雑なシーンにおける視点を補う。2つ目は、空のピクセルを自動的にセグメント化し、空に向けられたカメラの光線に対して密度を監視する。3つ目は、各カメラのアフィン変換を推定することで、画像間の露出の変化を自動的に補正する。

 これら3つの拡張機能を追加したNeRFモデルを評価するために、既存の類似技術と比較した実験を行った結果、先行研究より優れた3Dシーンを出力し、その有効性を示した。

Source and Image Credits: Rematas, Konstantinos, Andrew Liu, Pratul P. Srinivasan, Jonathan T. Barron, Andrea Tagliasacchi, Thomas Funkhouser, and Vittorio Ferrari. "Urban Radiance Fields." arXiv preprint arXiv:2111.14643 (2021).



Copyright © ITmedia, Inc. All Rights Reserved.