このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
NVIDIAと米Cornell Universityの研究チームが開発した「GANcraft: Unsupervised 3D Neural Rendering of Minecraft Worlds」は、マインクラフトなどのボクセルベースの大規模な世界を写実的な画像に変換する手法だ。土や砂、草木、雪、海、空などをリアルに表現し、見る視点を移動しても一貫した画像を提供する。ゲームやアニメーションの背景、バーチャル空間の作成にも役立つ可能性を秘めている。
マインクラフトは、規則的なグリッド上にブロックを置くだけで3次元空間を構築できる、子どもでも可能な手軽さが魅力だが、各3Dブロックは大きく出来上がりの解像度は低くなる。今回は、この3Dブロックで構築した世界をより細かく表現した3Dシーンに変換する手法を提案する。
マインクラフトは視点の移動が可能なため、写実的な画像に変換した後も、どの方向から見ても違和感のない表現に仕上げなければならない。そこで登場するのが、複数枚の異なる視点の画像から新しい視点の画像を合成できるボリュームレンダリングを用いる「NeRF」だ。そのまま適応したいところだが、対象となるマインクラフトの世界とペアとなる複数視点の写実的な画像が存在しないためそれは難しい。
そこでこの手法では、任意の視点から見るマインクラフトの画像とペアとなる疑似的な写実画像(疑似的なグラウンドトゥルース画像)を新たに作成するアプローチで補完する。疑似的な写実画像は、事前に学習した画像間変換モデル(SPADE)を用いて投影したセグメンテーションマップから生成する。
疑似的な写実画像を学習に組み込むことでボリュームレンダリングを実現する。疑似的な写実画像からスタイル特徴を抽出し、MLP(Multilayer perceptron)でボリュームレンダリングを行う。ボリュームレンダリングでピクセル単位の特徴ベクトルを生成し、CNN(Convolutional Neural Network)を用いてピクセル単位の特徴マップを疑似的な写実画像と同じ大きさのRGB画像に変換する。
空の描画は重要な要素なため、この手法では空をモデル化するために追加のMLPを使用しリアルな空を表現している。
ベースラインの4つのモデルと比較した結果、定性的にこの手法がリアルな画像だと評価された。今回はマインクラフトを用いた結果を示したが、他の3Dブロックで構築した表現にも応用できるという。
Source and Image Credits: Hao, Z., Mallya, A., Belongie, S., & Liu, M. Y. (2021). Gancraft: Unsupervised 3d neural rendering of minecraft worlds. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 14072-14082).
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR