ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

GPT-4がマインクラフトをプレイしたら? 自動プレイするAIモデル「Voyager」 NVIDIAなどが開発Innovative Tech

» 2023年06月02日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2

 米NVIDIA、米カリフォルニア工科大学、米テキサス大学オースティン校、米スタンフォード大学、米アリゾナ州立大学に所属する研究者らが発表した論文「Voyager: An Open-Ended Embodied Agent with Large Language Models」は、GPT-4を搭載し、Minecraftを学習しながら自動プレイするAIモデルを提案した研究報告である。

Minecraft内での進捗をこの手法と競合モデルで比較した表。X軸がプロンプト数でY軸がアイテム数。オレンジがVoyager、紫が競合モデルのAutoGPT

 Voyagerは、Minecraftをプレイするために大規模言語モデル(LLM)を導入したモデルで、人間の介入なしでさまざまな地形を横断し、さまざまなアイテムを発見し、新たなアイテムを作り出し、多様なスキルを習得しながら、探索を繰り返すことができる。

 Voyagerは、3つの主要なモジュールによって構築している。1つ目は、ワールド内の探索を自律的に最大化するモジュール。2つ目は、複雑な動作の実行コードを保存するモジュール。3つ目は、環境からのフィードバック、実行エラー、自己検証を取り入れ、プログラムの改善を図るモジュールだ。

システムの概要図

 GPT-4の入力プロンプトはいくつかの要素から構成する。プレイヤーの現在の状態や周囲の状況、以前に成功/失敗したコードなどを考慮して、次のプロンプトを決定する。生成したコードは、ワールド上で実行する。

 例えば、次のようなタスクを生成する「魚を1匹捕まえる。その理由は、キャラクターがインベントリに釣り竿を持っており、河川の近くに位置しているため、魚を釣って空腹を満たし経験値を獲得できるからです」

提案するタスクの一部

 GPT-4が新しいアイテムを生成するたびに、スキルライブラリに追加される。また失敗した場合も、例えば「鉄のインゴットがあと2個必要なので、鉄のヘルメットを作ることができません」のようなフィードバックを生成する。こうした方法により、成功の確認と失敗の反省の両方で自己検証を行っている。

自己検証の例

 実験では、160回のプロンプトによる試行を通じて、AutoGPTなどの競合モデルとこの手法を比較し、新規アイテムの生成数や探索領域の範囲などを評価した。その結果、Voyagerは63個の新規アイテムを発見し、競合モデルと比較して3.3倍の高い数を達成した。

 また、木の道具から始まり、石や鉄、そしてダイヤモンドの道具に進化するスピードも非常に速く、ダイヤモンドの道具を作成できたのはVoyagerだけであった。Voyagerはまた、多様な地形を横断するスピードも速く、競合モデルと比較して2.3倍の距離を移動することができた。

Source and Image Credits: Wang, Guanzhi, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan and Anima Anandkumar. “Voyager: An Open-Ended Embodied Agent with Large Language Models.”(2023).



Copyright © ITmedia, Inc. All Rights Reserved.