ITmedia NEWS > 科学・テクノロジー >

文章から“VRシーン”を作成するAI 4K解像度でHDRパノラマを出力 シンガポールのチームが発表Innovative Tech

» 2022年10月11日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 シンガポールのNanyang Technological Universityによる研究者らが発表した論文「Text2Light: Zero-Shot Text-Driven HDR Panorama Generation」は、4Kの解像度を持つHDRパノラマを生成するためのゼロショット・テキスト駆動型フレームワークを提案した研究報告だ。ユーザーが入力する任意の文章に応じて、フォトリアリスティックな照明が含まれる3Dシーンを自動生成する。

自然言語のテキストに応じた、4K解像度のHDRパノラマを生成する

 HDRパノラマに代表される高品質なHDRI(High Dynamic Range Images)は、3Dシーンのフォトリアルな照明や360度反射をグラフィックスで表現するための最も一般的な方法の一つである。一般的な風景画像とは異なり、シーンの輝きを高ダイナミックレンジで360度表現しており、より多様できめ細かい内容を有している。

 一方で、自然言語によるテキスト入力から画像を生成する学習モデルが流行している。しかしこれらの最先端モデルは、4KやHDRパノラマを出力することはできていない。

 今回は4KのHDRパノラマをテキスト入力から生成するフレームワーク「Text2Light」を提案する。このフレームワークは、自然言語のテキストによって制御される3Dシーンにおいて、フォトリアリスティックな照明とシーンテクスチャを生成する。

 フレームワークは2段階で構成する。1段階目では、シーンの説明文を入力として、事前学習したCLIPモデルの力を借りたモジュールで低ダイナミックレンジ(LDR)および低解像度(LR)の360度パノラマを生成する。2段階目では、1段階目で出力した画像の解像度とダイナミックレンジの両方を同時に向上させるモジュールで出力画像に仕上げる。

Text2Lightのアーキテクチャ

 これによって、これまでの画像生成の最先端モデルでは困難であった4K解像度での出力を実現し、LDRからHDRへの変換の不安定さをクリアして、学習用のパノラマとテキストのペアの大規模データセットを不要としたゼロショットを達成する。

 生成されたHDRパノラマの応用例として、3Dシーンの照明に直接使用してフォトリアルな反射や照明の演出、またテキストを使用して忠実度の高い3Dアセットを照明すること、VRシーンへの適応などが挙げられた。

出力したHDRパノラマの応用例

 他にも、階層的なフレームワークにより、生成したシーンをさらに編集し、フレーズの追加や追加の記述により特定の領域を操作することもできる。

テキストで画像の部分的編集を行っている一例

Source and Image Credits: Chen, Zhaoxi, Guangcong Wang, and Ziwei Liu. “Text2Light: Zero-Shot Text-Driven HDR Panorama Generation.” arXiv preprint arXiv:2209.09898 (2022).



Copyright © ITmedia, Inc. All Rights Reserved.