米Google傘下のGoogle DeepMindは8月5日(現地時間)、自然言語プロンプトに基づいて、多様なインタラクティブ環境を生成できる“汎用ワールドモデル”「Genie 3」を発表した。
Genie 3は、テキストプロンプトを与えることで、ユーザーがリアルタイムで操作可能な動的な世界を生成するAIシステム。生成された世界は、720pの解像度で毎秒24フレームの速度で動作し、数分間の一貫性を維持することができる。ユーザーが探索するにつれて、環境は動きやアクションに反応してライブで生成される。
2024年に発表した「Genie 2」などの初期の基盤ワールドモデルに加え、「Veo 3」などのビデオ生成モデルにおける進歩も、Genie 3の開発を後押しした。
Genie 3は、Genie 2と比較して、リアルタイムでのインタラクションを可能にし、一貫性とリアリズムが向上している点が大きな違いという。
Genie 3の特徴の1つは、「ワールドメモリ」だ。これにより、AIが生成する世界は、ユーザーの動きやアクションによって生成された部分だけでなく、以前に生成された軌跡も考慮に入れることで、物理的に一貫した状態を長期間維持することができる。
例えば、壁に絵を描いた場合、一度その場所から離れても、戻ってきたときには描いた絵がそのまま残っている。これは、自動回帰的に環境を生成する際に、時間の経過とともに不正確さが蓄積されるという技術的な課題を克服し、数分間にわたる高い一貫性を実現しているからだ。
Google DeepMindは、ワールドモデルをAGI(汎用人工知能)への重要な足がかりと位置づけている。Genie 3のようなモデルは、AIエージェントを豊富で多様なシミュレーション環境で無制限に訓練することを可能にする。一貫性を維持できるため、より複雑な目標を達成するための長い一連の行動を実行することも可能だ。
こうした特徴により、ロボットや自律システムのようなエージェントを訓練する広大な場を提供するだけでなく、エージェントのパフォーマンスを評価し、その弱点を探ることも可能になる。実際に、SIMAエージェントと呼ばれるGoogle DeepMindの汎用エージェントの訓練にもGenie 3が利用され、複雑な目標達成に役立つことが示されているという。
Genie 3には幾つかの限界もある。エージェントが直接実行できるアクションの範囲は限られており、複数の独立したエージェント間の複雑な相互作用を正確にモデル化することは、まだ研究課題だ。また、現実世界の場所を完璧な地理的精度でシミュレートすることはできず、明確で判読可能なテキストは、入力のワールド記述に含まれる場合にのみ生成される傾向がある。さらに、現在のところ、モデルがサポートできる連続的なインタラクションの時間は数分間に限られており、長時間の利用はできない。
Genie 3は現在、限られた研究プレビューとして、少数の学者やクリエイターに先行アクセスを提供している。このアプローチを通じて重要なフィードバックと学際的な視点を収集し、リスクと適切な軽減策の理解を深めることを目指す。将来的には、より多くのテスターがGenie 3を利用できるようにすることも検討している。
公式ブログには、Genie 3で生成した動画のサンプルが多数紹介されている。
Google DeepMind、インタラクティブな3D世界を作るAI「Genie 2」発表
Googleの動画生成AI「Veo 3」、Geminiアプリでも利用可能に(ただし「Pro」以上)
Google DeepMind、AIが自らアルゴリズムを発見・進化させる「AlphaEvolve」発表
Google、AGIのある未来を目指しGoogle DeepMind立ち上げCopyright © ITmedia, Inc. All Rights Reserved.