Google DeepMind、インタラクティブな3D世界を作るAI「Genie 2」発表

Google DeepMindは、テキストや画像からインタラクティブな3D世界を生成する基盤世界モデル「Genie 2」を発表した。現実世界では危険なタスクを含む状況でのAIエージェントのトレーニングやゲーム開発に応用できるとしている。

[ITmedia] PC用表示関連情報

LINE

Hatena

　米Google傘下のGoogle DeepMindは12月4日（現地時間）、テキストや画像から多様な3D仮想世界を生成するfoundation world model（基盤世界モデル）の「Genie 2」を発表した。

　Genie 2では1人称視点、アイソメトリックビュー（斜め上から見下ろす視点）、3人称視点など、多様な視点からの世界を生成でき、生成した仮想世界は、キーボードとマウスを使って操作できる。また、物理法則やNPCの行動などをリアルにシミュレートできる。ただし、生成できるのは最大1分間だ。

　Genie 2の応用例として、現実世界では危険なタスクを含む、多様な状況でのAIエージェントのトレーニングや評価、ゲーム開発者やアーティストが新たな体験をプロトタイピングすることの支援などが考えられる。

　Genie 2は大規模な動画データセットでトレーニングされた自己回帰型拡散モデルという。Google DeepMindはこのデータセットのソースについては言及していない。

　Genie 2で生成された動画の複数のサンプルを公式ブログで見ることができる。

　公式ブログにはGenie 2を公開しているのかどうかについては明記されていない。

　インタラクティブな仮想世界を生成するAIモデルとしては、米World Labsが2日、1枚の画像からインタラクティブな3D世界を生成する技術を発表した。