呪文で高精細な3Dアバターを生成するAI「Rodin」　Microsoftが開発：Innovative Tech

Microsoft Researchに所属する研究者らは、人物の静止画像やテキストプロンプトから高品質な3Dアバターを生成する拡散モデルを提案した研究報告を発表した。

[山下裕毅，ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

Innovative Tech：

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

　Microsoft Researchに所属する研究者らが発表した論文「Rodin: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion」は、人物の静止画像やテキストプロンプトから高品質な3Dアバターを生成する拡散モデルを提案した研究報告である。

　リッチな品質で360度自由に閲覧できる、リアルな髪形やヒゲなどの顔髪を持つ高精細な3Dアバターを自動生成する。生成だけでなく、テキストプロンプトによる3Dアバターの編集も行える。

1枚の顔写真やテキストプロンプトから高忠実度の3Dアバターを生成する

ポートレート写真から生成した3Dアバター

　生成モデルは、2次元画像や3次元モデルを含む視覚データを解析・合成するための最も有望な方法の1つである。生成モデリングの最前線は拡散モデルであり、画像や動画に対して驚異的な生成力を示してきた。

　3Dアバターの生成における中心的な課題は、高品質なアバターに必要とされる豊富なディテールのための法外なメモリと計算コストである。詳細な情報がなければ、結果はどこか“おもちゃ”のようになってしまう。

　この課題を解決するために今回の研究では、1枚のポートレート写真やテキストプロンプトから3Dアバターを生成するロールアウト拡散ネットワーク「Rodin」を提案する。このモデルは、「NeRF」（Neural Radiance Fields）で表されるデジタルアバターを自動的に生成するための拡散モデルである。

　NeRFとは、異なる視点の複数枚の画像を手掛かりに、新規の視点画像を合成して生成する技術である。3次元座標とカメラの向きを入力すると、その座標の色と不透明度が返り、それを元にボリュームレンダリングすることで複数枚の静止画像から3Dモデルが生成できるというメカニズムである。

　この手法では、NeRFを複数の2次元特徴マップとして表現し、それらを1つの2次元特徴面に展開し、その中で3次元を意識した拡散を行う。提案する3次元を考慮した畳み込みは、3次元での拡散モデルの整合性を保ちつつ、計算効率を向上させる。

　全体の生成は、マルチスケールモデリングのためにカスケードされた拡散モデルによる階層的な処理である。低解像度の3次元平面（64×64ピクセル）を生成し、次に拡散に基づくアップサンプリングにより高解像度（256×256ピクセル）を実現する。生成モデルが学習されると、入力画像やテキストプロンプト、ランダムノイズのいずれかから得られる潜在的なコードに基づいて、アバター生成を制御することができる。

Rodinのパイプライン

　Rodinは、3Dアーティストが作成した多様なアイデンティティー、髪形、服装の10万人のアバターからなるマルチビュー画像データセットから学習する。

　3Dアバター生成では、学習データに含まれる3Dアバターだけでなく、他の3Dアバターとも異なる3Dアバターを一から無制限に生成することができる。口ひげ、あごひげ、もみあげなど、リアルな髪形や顔立ちのアバターを精密に生成することが可能である。また生成した3Dアバターに対し、テキストプロンプトによるカスタマイズも可能にする。

　今回は3Dアバターのみに焦点を当てるが、Rodinモデルの背後にある主要なアイデアは、一般的な3Dシーンに対する拡散モデルにも適用可能である。

Rodinによる生成結果とメッシュ（1）

Rodinによる生成結果とメッシュ（2）

Rodinによる生成結果（3）

Rodinによる生成結果（4）

ポートレート写真から生成した3Dアバター

Source and Image Credits: Wang, Tengfei, Bo Zhang, Ting Zhang, Shuyang Gu, Jianmin Bao, Tadas Baltrusaitis, Jingjing Shen et al. “Rodin: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion.” arXiv preprint arXiv:2212.06135 (2022).

呪文で高精細な3Dアバターを生成するAI「Rodin」　Microsoftが開発：Innovative Tech

Innovative Tech：

関連記事

関連リンク

呪文で高精細な3Dアバターを生成するAI「Rodin」 Microsoftが開発：Innovative Tech

Innovative Tech：

関連記事

関連リンク

呪文で高精細な3Dアバターを生成するAI「Rodin」　Microsoftが開発：Innovative Tech