ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

MinecraftをAIがプレイ、10分で「ダイヤモンドのツルハシ」を高速作成 米OpenAIが技術開発Innovative Tech

» 2022年06月28日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 米OpenAIの研究チームが開発した「Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos」は、人間がプレイするMinecraft(マインクラフト)の映像から複雑な動作を学習するモデルだ。学習したモデルは、熟練した人でも20分以上かかるダイヤモンドツールの作成を10分程度で成し遂げ、その有効性を示した。

ダイヤモンドのツルハシを作成する場面

 人がプレイしたマインクラフトのプレイ動画がWeb上に多く存在する。今回のモデルはこの膨大な動画データで学習するわけだが、これら動画からは何が起きたかが分かるだけで、マウスの動きやキーの押し順を正確に知ることはできない。つまり、ラベルが付いていない。

 そこで研究チームは半教師あり模倣学習「Video PreTraining 」(VPT)を開発し、この課題に挑戦する。

 VPTではエージェントがラベルなし動画データを直接学習するのではなく、まず少量のラベル付き動画データ(100時間程度)を使用し、動画の各ステップで実行されるマウスの動きとキーの押し順を予測するモデル「Inverse Dynamics Model」(IDM)を学習する。次に、学習したIDMで膨大なラベルなし動画データ(サバイバルモードのみ約7万時間)を学習して複雑な行動を習得する。

VPTの概要図

 学習したVPTは映像の各ステップで取られた行動とマウスの動き、キーの押し順を予測する。ここでいう行動とは、「豚を狩って食べる」「ジャンプを繰り返して自分の下にブロックを置き自分を高くする」「原木を集めて作業台を作る」など複雑な動作を指す。

 研究チームはモデルの有効性を評価するため、強化学習で微調整を行いサバイバルモードでダイヤモンドのツルハシを作成するという実験を行った。ダイヤモンドのツルハシを作るには、長くて複雑な一連のサブタスクが必要である。原木集めから始まり、作業台、木のツルハシ、石、石のツルハシ、かまど、鉄鉱石、鉄、鉄のツルハシ、ダイヤモンドと段階を踏んでダイヤモンドのツルハシが作れるようになる。

ダイヤモンドのツルハシが作られるまでのロードマップ

 その結果、10分でダイヤモンドのツルハシの作成に成功した。通常このタスクを人間が行うと、平均20分以上(2万4000アクション)かかるそうで、2倍以上の速度で達成したことになる。

 この結果から、Web上にある膨大な量のラベルなし動画データを効率よく学習できることが分かった。またマウスの動きとキーの押し順は一般的な人のインタフェースであり、他への応用も良好な結果を生み出す可能性が示された。

Source and Image Credits: Bowen Baker, Ilge Akkaya, Peter Zhokhov, Joost Huizinga, Jie Tang, Adrien Ecoffet, Brandon Houghton, and Raul Sampedro.“Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos”



Copyright © ITmedia, Inc. All Rights Reserved.