文章から「3Dアバター」と「動き」を自動作成するAI シンガポールと中国のチームが開発:Innovative Tech
シンガポールのNanyang Technological University、中国のSenseTime Research、中国のShanghai AI Laboratoryは、テキスト入力から3Dアバターとその動きをゼロショットで生成する機械学習を用いたシステムを開発した。
Innovative Tech:
このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
シンガポールのNanyang Technological University、中国のSenseTime Research、中国のShanghai AI Laboratoryによる研究チームが開発した「AvatarCLIP: Zero-Shot Text-Driven Generation and Animation of 3D Avatars」は、テキスト入力から3Dアバターとその動きをゼロショットで生成する機械学習を用いたシステムだ。
専門的な知識を必要とせず、初心者でも自然言語のみを使って3Dアバターを好きな形やテクスチャにカスタマイズし、記述した動作でアバターを動かすことができる。
例えば、「I want to generate a tall and fat Iron Man that is running.」(背が高く、太ったアイアンマンが走っている姿を生成したい。)の入力で下記画像の左上を生成する。
「I would like to generate a skinny ninja that is raising arms.」(腕を振り上げている痩せた忍者を生成したい。)で画像の右上、「I want to generate a tall and skinny female soldier that is arguing.」(背が高く痩せた女性兵士が議論している姿を生成したい。)で画像の左下、「I want to generate an overweight sumo wrestler that is sitting.」(座る太った力士を生成したい。)で画像の右下を生成する。
デジタルアバターの制作は、キャラクターの形状作成、テクスチャーの描画、スケルトンのリギング、モーションキャプチャーによるアバターの駆動など、多様な工程が行われる。それぞれの工程で専門的なソフトウェアに精通した多くの専門家と膨大な作業時間などが求められる他、大企業しか手が出せない高価な機材が必要だ。
昨今では大規模な事前学習済みモデルや高度な人間表現など、学術的な進歩により、この複雑な作業を小規模スタジオでも利用できるようになり、さらには大衆に至るまで手が届くようになってきた。この研究ではさらに一歩進んで、自然言語記述のみから3Dアバターを生成し、アニメーションさせることができる「AvatarCLIP」を提案する。
これまでにもアバター生成やモーション合成など、いくつか類似した取り組みが行われてきた。これらは一般的に教師あり学習のためにペアデータを必要とするが、テキストからアバター/モーション生成となると、ペアとなるデータを取得するのは難しい。
最近の進歩において、文章と画像のペアを推定する事前学習済みモデル「CLIP」が登場した。CLIPはテキストから画像生成をゼロショットで行うことに成功している。これらの研究に触発され、今回も3Dアバターのゼロショットテキスト駆動生成とアニメーションを達成するためにCLIPを利用する。
CLIPは静止画でしか学習しないため、連続した動きが不得意である。そのためCLIPのみを用いて合理的なモーションシーケンスを生成することは本質的に困難である。この問題に取り組むため、研究チームは全プロセスを2段階に分ける。1段階目はCLIPによる静的アバターの生成、2段階目は候補ポーズを参照したモーションの合成。
このようにパイプライン全体の設計を工夫することで、入力テキストに対する合理的なモーションシーケンスを持つ3Dアバターを生成することができる。
広範囲な定性的・定量的実験により、生成されたアバターとモーションは既存の手法と比較して高品質であり、対応する入力自然言語と高い整合性があることを示した。
Source and Image Credits: Hong, Fangzhou, Mingyuan Zhang, Liang Pan, Zhongang Cai, Lei Yang and Ziwei Liu. “AvatarCLIP: Zero-Shot Text-Driven Generation and Animation of 3D Avatars.”
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 「この写真を金髪に変えたい」──脳で考えた通りに画像を編集するAI、欧州チームが開発
フィンランドのUniversity of Helsinkiとデンマークのコペンハーゲン大学の研究チームは、人間が考えたことをもとにコンピュータに画像を編集させる深層学習を用いたブレインマシンインタフェース(BMI)技術を開発した。 - MinecraftをAIがプレイ、10分で「ダイヤモンドのツルハシ」を高速作成 米OpenAIが技術開発
米OpenAIの研究チームは、人間がプレイするMinecraft(マインクラフト)の映像から複雑な動作を学習するモデルを開発した。学習したモデルは、熟練した人でも20分以上かかるダイヤモンドツールの作成を10分程度で成し遂げ、その有効性を示した。 - 文章から“動画”を自動作成するAI、中国の研究チームが開発
中国の清華大学の研究チームは、簡単なテキストを入力に、その文章を基にした簡単な動画を自動作成する機械学習モデルを開発した。 - 画像生成AIが独自の“AI語”を生み出した? 「DALL-E 2」を巡って、米テキサス大学が論文発表
AIが人間の言葉ではない独自の言語を生成した──米テキサス大学の研究チームはそのような研究結果を示す論文を発表した。画像生成AIが生み出す文字列は意味不明なものであると思われていたが、それらの言葉は鳥や野菜などの意味を持つ“AI語”であったという。 - 最新AIの描く絵が「ヤバすぎ」「個展開ける」と話題 文章から画像を生成する「DALL・E 2」、米OpenAIが発表
米AI研究企業OpenAIは、文章から画像を生成するAI「DALL・E 2」を発表した。生成した画像を掲載するデモサイトも公開しており、その絵のクオリティーの高さにTwitter上では「最新のAIやばすぎる」など、驚きの声が出ている。