呪文で高精細な3Dアバターを生成するAI「Rodin」 Microsoftが開発:Innovative Tech
Microsoft Researchに所属する研究者らは、人物の静止画像やテキストプロンプトから高品質な3Dアバターを生成する拡散モデルを提案した研究報告を発表した。
Innovative Tech:
このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Microsoft Researchに所属する研究者らが発表した論文「Rodin: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion」は、人物の静止画像やテキストプロンプトから高品質な3Dアバターを生成する拡散モデルを提案した研究報告である。
リッチな品質で360度自由に閲覧できる、リアルな髪形やヒゲなどの顔髪を持つ高精細な3Dアバターを自動生成する。生成だけでなく、テキストプロンプトによる3Dアバターの編集も行える。
生成モデルは、2次元画像や3次元モデルを含む視覚データを解析・合成するための最も有望な方法の1つである。生成モデリングの最前線は拡散モデルであり、画像や動画に対して驚異的な生成力を示してきた。
3Dアバターの生成における中心的な課題は、高品質なアバターに必要とされる豊富なディテールのための法外なメモリと計算コストである。詳細な情報がなければ、結果はどこか“おもちゃ”のようになってしまう。
この課題を解決するために今回の研究では、1枚のポートレート写真やテキストプロンプトから3Dアバターを生成するロールアウト拡散ネットワーク「Rodin」を提案する。このモデルは、「NeRF」(Neural Radiance Fields)で表されるデジタルアバターを自動的に生成するための拡散モデルである。
NeRFとは、異なる視点の複数枚の画像を手掛かりに、新規の視点画像を合成して生成する技術である。3次元座標とカメラの向きを入力すると、その座標の色と不透明度が返り、それを元にボリュームレンダリングすることで複数枚の静止画像から3Dモデルが生成できるというメカニズムである。
この手法では、NeRFを複数の2次元特徴マップとして表現し、それらを1つの2次元特徴面に展開し、その中で3次元を意識した拡散を行う。提案する3次元を考慮した畳み込みは、3次元での拡散モデルの整合性を保ちつつ、計算効率を向上させる。
全体の生成は、マルチスケールモデリングのためにカスケードされた拡散モデルによる階層的な処理である。低解像度の3次元平面(64×64ピクセル)を生成し、次に拡散に基づくアップサンプリングにより高解像度(256×256ピクセル)を実現する。生成モデルが学習されると、入力画像やテキストプロンプト、ランダムノイズのいずれかから得られる潜在的なコードに基づいて、アバター生成を制御することができる。
Rodinは、3Dアーティストが作成した多様なアイデンティティー、髪形、服装の10万人のアバターからなるマルチビュー画像データセットから学習する。
3Dアバター生成では、学習データに含まれる3Dアバターだけでなく、他の3Dアバターとも異なる3Dアバターを一から無制限に生成することができる。口ひげ、あごひげ、もみあげなど、リアルな髪形や顔立ちのアバターを精密に生成することが可能である。また生成した3Dアバターに対し、テキストプロンプトによるカスタマイズも可能にする。
今回は3Dアバターのみに焦点を当てるが、Rodinモデルの背後にある主要なアイデアは、一般的な3Dシーンに対する拡散モデルにも適用可能である。
Source and Image Credits: Wang, Tengfei, Bo Zhang, Ting Zhang, Shuyang Gu, Jianmin Bao, Tadas Baltrusaitis, Jingjing Shen et al. “Rodin: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion.” arXiv preprint arXiv:2212.06135 (2022).
関連記事
- OpenAI、テキストから3Dモデルを高速生成するAI「Point-E」をリリース
OpenAIは、テキストから3Dモデルを生成するAI「Point-E」をオープンソース化した。3Dモデルを単体GPUでも1〜2分で生成できるとしている。GitHubでMITライセンスで公開した。 - 「AIいらすとや」登場 呪文を唱えて“いらすとやっぽい絵”を作れる
AI Picassoが、フリー素材サイト「いらすとや」風のイラストを生成できるモデル「AIいらすとや」を公開した。テキストの指示に沿ってそれらしい画像を生成できる。 - 絵心がない線画を“いい感じの作品”に変える画像生成AI「Sketch-to-Image」 Googleなどが開発
Google ResearchとイスラエルのTel Aviv Universityに所属する研究者らは、落書きのようにざっと描いた絵を入力テキストに従って詳細な画像を生成する深層学習モデルを提案した研究報告を発表した。 - AIが作った画像が喋る 動画生成サービス「Creative Reality Studio」登場 「GPT-3」「Stable Diffusion」を利用
生成系AIの開発などに取り組むイスラエルのD-IDは、アバターが喋る動画を生成できるサービス「Creative Reality Studio」を開発したと発表した。プロンプトを基に、AIが画像や喋らせたい内容を生成。それらを自動合成し、動画として出力する。 - 国産AIはなぜ炎上する? 「mimic」開発元に反省点を聞いた 海外産AIは平常運転、待つのは“日本1人負け”か
2022年、画像生成AIが大きな注目を集めた。「Midjourney」など海外産AIの多くは受け入れられた一方、「mimic」や「クリスタ」では炎上し、停止に追い込まれる事態が続いた。なぜこのような事態になってしまったのか? 画像生成AIと2022年を振り返る。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.