ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

呪文で高精細な3Dアバターを生成するAI「Rodin」 Microsoftが開発Innovative Tech

» 2023年01月06日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 Microsoft Researchに所属する研究者らが発表した論文「Rodin: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion」は、人物の静止画像やテキストプロンプトから高品質な3Dアバターを生成する拡散モデルを提案した研究報告である。

 リッチな品質で360度自由に閲覧できる、リアルな髪形やヒゲなどの顔髪を持つ高精細な3Dアバターを自動生成する。生成だけでなく、テキストプロンプトによる3Dアバターの編集も行える。

1枚の顔写真やテキストプロンプトから高忠実度の3Dアバターを生成する
ポートレート写真から生成した3Dアバター

 生成モデルは、2次元画像や3次元モデルを含む視覚データを解析・合成するための最も有望な方法の1つである。生成モデリングの最前線は拡散モデルであり、画像や動画に対して驚異的な生成力を示してきた。

 3Dアバターの生成における中心的な課題は、高品質なアバターに必要とされる豊富なディテールのための法外なメモリと計算コストである。詳細な情報がなければ、結果はどこか“おもちゃ”のようになってしまう。

 この課題を解決するために今回の研究では、1枚のポートレート写真やテキストプロンプトから3Dアバターを生成するロールアウト拡散ネットワーク「Rodin」を提案する。このモデルは、「NeRF」(Neural Radiance Fields)で表されるデジタルアバターを自動的に生成するための拡散モデルである。

 NeRFとは、異なる視点の複数枚の画像を手掛かりに、新規の視点画像を合成して生成する技術である。3次元座標とカメラの向きを入力すると、その座標の色と不透明度が返り、それを元にボリュームレンダリングすることで複数枚の静止画像から3Dモデルが生成できるというメカニズムである。

 この手法では、NeRFを複数の2次元特徴マップとして表現し、それらを1つの2次元特徴面に展開し、その中で3次元を意識した拡散を行う。提案する3次元を考慮した畳み込みは、3次元での拡散モデルの整合性を保ちつつ、計算効率を向上させる。

 全体の生成は、マルチスケールモデリングのためにカスケードされた拡散モデルによる階層的な処理である。低解像度の3次元平面(64×64ピクセル)を生成し、次に拡散に基づくアップサンプリングにより高解像度(256×256ピクセル)を実現する。生成モデルが学習されると、入力画像やテキストプロンプト、ランダムノイズのいずれかから得られる潜在的なコードに基づいて、アバター生成を制御することができる。

Rodinのパイプライン

 Rodinは、3Dアーティストが作成した多様なアイデンティティー、髪形、服装の10万人のアバターからなるマルチビュー画像データセットから学習する。

 3Dアバター生成では、学習データに含まれる3Dアバターだけでなく、他の3Dアバターとも異なる3Dアバターを一から無制限に生成することができる。口ひげ、あごひげ、もみあげなど、リアルな髪形や顔立ちのアバターを精密に生成することが可能である。また生成した3Dアバターに対し、テキストプロンプトによるカスタマイズも可能にする。

 今回は3Dアバターのみに焦点を当てるが、Rodinモデルの背後にある主要なアイデアは、一般的な3Dシーンに対する拡散モデルにも適用可能である。

Rodinによる生成結果とメッシュ(1)
Rodinによる生成結果とメッシュ(2)
Rodinによる生成結果(3)
Rodinによる生成結果(4)
ポートレート写真から生成した3Dアバター

Source and Image Credits: Wang, Tengfei, Bo Zhang, Ting Zhang, Shuyang Gu, Jianmin Bao, Tadas Baltrusaitis, Jingjing Shen et al. “Rodin: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion.” arXiv preprint arXiv:2212.06135 (2022).



Copyright © ITmedia, Inc. All Rights Reserved.