DeepMindの「AlphaStar」、「スタークラフト2」のプロトップゲーマーに圧勝

Google系列のDeepMindが開発したAI「AlphaStar」が、人気リアルタイムストラテジーゲーム「スタークラフト2」の2人のトップゲーマーとそれぞれ5ゲーム対戦し、5対0で圧勝した。

[ITmedia] PC用表示関連情報

LINE

Hatena

　米Google系列の英AI企業DeepMindは1月24日（現地時間）、米Blizzard Entertainmentの人気リアルタイムストラテジー（RTS）ゲーム「スタークラフト2」のプレイヤーAI「AlphaStar」を発表した。2人のプロゲーマー、「TLO」と「MaNa」との5ゲーム対戦でそれぞれ完勝した。

AlphaStarとプロゲーマー「TLO」とのスタークラフト2対戦画面

　スタークラフト2は、前作スタークラフトと同様、「テラン」「ザーグ」「プロトス」の3種族の陣取りゲーム。プレイヤーはいずれかの種族の司令官となって軍隊を編成し、他の種族と戦う。3つの種族は互いの基地がどこにあるか分からないまま相手の出方によってリアルタイムで戦略を立てる必要があり、非常に複雑だ。

　DeepMindは昨年12月にチェス、将棋、囲碁のそれぞれの世界最強AIを打ち負かしたと発表したが、スタークラフト2はそれらのゲームのようには状況を把握できず、必要な情報を「スカウティング」によって積極的に収集しなければならない。

　また、現実世界と同様に、スタークラフト2の世界では因果関係が常に変動するので、初期段階に立てた戦略は長期的には役に立たなくなる可能性がある。

　こうした多様な課題を克服するために、DeepMindはまず、Blizzardが公開している匿名化された人間のゲーマーによる対戦データでAlphaStarを「教師あり学習」で学習させ、その後マルチエージェントによる「強化学習」を行った。エージェント同士が戦うリーグを作り、継続的に対戦させた。

教師あり学習後、エージェント同士のリーグ戦で強化学習した

　TLOやMaNaのような人間のプロゲーマーの場合、1分当たりに行うアクションは平均で数百回。AlphaStarはTLOとMaNaとの対戦で、1分当たり280回のアクションを行った。数は少ないが、いずれも的確だった。

　MaNaはAlphaStarとの対戦後「AlphaStarが、ほぼすべてのゲームでこちらの高度な戦術を阻止したことに感銘を受けた。自分のプレイがいかに人間のミスを誘う戦術に依存しているかに気づいた」と語った。

　DeepMindは、AlphaStarが獲得した非常に長い一連のデータに対して複雑な予測を行うテクニックは、天気予報、気候モデリング、言語理解など、現実での問題解決にも生かせる可能性があると主張する。

DeepMindの「AlphaStar」、「スタークラフト2」のプロトップゲーマーに圧勝

関連記事

関連リンク