一般人が撮影したネット上の写真から建物を高品質に3D化するGoogleの機械学習技術：Innovative Tech

観光客が撮影してネットで公開している写真を利用できる。

[山下裕毅，ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

Innovative Tech：

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

　米Google ResearchとGoogle Brainの研究チームが開発した「NeRF in the Wild」（NeRF-W）は、観光客などが撮影してインターネットで公開している建造物の写真を組み合わせて3次元化する、機械学習ベースの手法だ。

　3次元にしたい建造物を一から撮影するのではなく、一般人が撮影した大量の写真データ群を使うのが特徴。手間を省き、忠実度が高いリアルな合成画像を作り上げる。

（a）インターネット上に一般公開されている複数の画像から、（b）可変照明条件下の3次元シーンを再構築する

　今回の手法は、Googleが以前にカリフォルニア大学バークレー校などと共同開発した「Neural Radiance Fields」（NeRF）をベースにしている。NeRFは、さまざまな角度から撮影した複数枚の写真を機械学習を用いて処理し、自由な視点から見られ、光の当たり具合も含めてリアルな3次元画像を生成するものだ。

　だが、撮影された時間や天候による日光の影響、露出変更などの画像編集による後処理、人や車の映り込みなど、条件が違う雑多な写真を処理するにはNeRFでは不十分だった。今回の手法では、画像間の測光の不一致をモデル化し、不要なオブジェクトを分離。共通する外観表現を学習することで、画像間の測光や環境のばらつきを解析する柔軟性を獲得する。

インターネット上の写真は、撮影した時間や天候などにより照明条件にばらつきがある

　次に、シーンの静的要素と動的要素を教師なしで別々に分解し、それらを同時にレンダリングして合成画像を生成。入力画像の不自然な部分を軽減し、建造物の新しい視点を高い忠実度で合成する。単一照明の画像だけでなく、昼や夜などの照明条件を変更した出力も可能だ。

　出力した画像は、外観を滑らかに補間し3次元の一貫性を保持した画像に仕上がる。合成データと実世界のデータを用いた実験評価によると、従来の最先端のアプローチに比べて大幅な向上を示したとしている。

ブランデンブルク門を再構築した出力結果

サクレ・クール寺院を再構築した出力結果

トレヴィの泉を再構築した出力結果

　今回の技術は、世界遺産など重要文化財の復元、ARやVRを通したバーチャル空間での3Dフォトツーリズムなどで活用できる可能性がある。

一般人が撮影したネット上の写真から建物を高品質に3D化するGoogleの機械学習技術：Innovative Tech

Innovative Tech：

関連記事

関連リンク