ITmedia NEWS > 科学・テクノロジー >
ニュース
» 2021年12月17日 08時00分 公開

テキストだけで、AIが3Dモデルを自動生成 米Googleなどの研究チームが開発Innovative Tech

米Google Researchと米カリフォルニア大学バークレー校の研究チームは、自然言語の記述のみからデジタル3Dオブジェクトを生成するZero-shot learningを使ったアプローチを提案。3Dの学習データを必要とせずに形状や色、スタイルを柔軟に制御する。

[山下裕毅,ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 米Google Researchと米カリフォルニア大学バークレー校の研究チームが開発した「Zero-Shot Text-Guided Object Generation with Dream Fields」は、自然言語の記述のみからデジタル3Dオブジェクトを生成するZero-shot learningを使ったアプローチだ。従来の手法とは異なり、3Dの学習データを必要とせず、自然言語によるプロンプトのみを使用し、形状や色、スタイルを柔軟に制御する。

 以下の画像では、いくつかの出力結果の例を示している。例えば、画像上段は「bouquet of flowers sitting in a clear glass vase.」(透明なガラスの花瓶に飾られた花束)、中央段は「a small green vace displays some small yellow blooms.」(緑色の小さな花瓶に黄色い花が飾ってある)、下段は「a slug crawling on the ground around flower petals.」(花びらの周りの地面を這うナメクジ)の記述に対して出力した3Dオブジェクト。

テキストのみから生成した3Dオブジェクトの例

 他にも、記述のテンプレートを作成し、一部の文言だけを入れ替えて出力したデモも紹介される。例えば、左上は「armchair in the shape of an avocado. armchair imitating avocado.」(アボカドの形をしたアームチェア)、左下は「a snail made of baguette. a snail with the texture of baguette.」(バゲットで作られたカタツムリ)の記述から生成された3Dオブジェクト。

記述のテンプレートを作成し、一部だけを変えてさまざまな3Dオブジェクトを生成した一例
(左)ブラックメタリックの風見鶏、(中央)ジェンガタワーの高品質な3Dレンダリング、(右)宇宙船

 この手法では、先行研究の「NeRF」(Neural Radiance Field)を応用したアプローチを提案。NeRFとは、複数の異なる視点の画像群から新たな視点ビューを作り出す技術のこと。

 3次元の点の座標と視線方向を入力して、各座標の色と密度(不透明度)を示したRadiance Fields(輝度の場)を計算し3次元空間の物体の形状を出力する。出力した物体の異なる視点画像は、光の反射や透明な物体から透ける見え方なども再現しており、2020年の発表当時はその精度に驚く声が上がった。

 しかし、自然言語の記述だけで新しいオブジェクトを作成する場合、入力に画像は利用できない。そこで、複数の視点の画像の再構成を学習するのではなく、テキストの意味と類似性を持つようにRadiance Fieldsを学習する。

 このテキストとRadiance Fields間の意味的類似性は、2021年1月にOpenAIが発表した、4億ペアものキャプション付き画像(画像とその内容を説明するテキストのペア)で訓練した画像分類モデル「CLIP」 (Contrastive Language-Image Pre-Training)を使って学習する。NeRFとCLIPは微分可能であるため、各プロンプトに対してエンドツーエンドで最適化できる。

 今回、研究チームは、学習方法にZero-shot learning技術を利用している。Zero-shot learningとは、機械が見たことないモノをこれまでの知っている知識から推論して予測する機械学習法を指す。

 例えば、馬を学習した機械は、学習していない初めて見るシマウマを認識できないが、人間はシマウマを知らなくても馬に白色と黒色が付いた動物だと推論できる。このように、機械にも推論する力を与えるように学習するのがZero-shot learningとなる。これにより、見たことのない自然言語を入力しても推論し、それに近似した3Dオブジェクトを出力する。

Source and Image Credits: Jain, A., Mildenhall, B., Barron, J.T., Abbeel, P., & Poole, B. (2021). Zero-Shot Text-Guided Object Generation with Dream Fields. ArXiv, abs/2112.01455



Copyright © ITmedia, Inc. All Rights Reserved.