米Google系列の英AI企業DeepMindは1月24日（現地時間）、米Blizzard Entertainmentの人気リアルタイムストラテジー（RTS）ゲーム「スタークラフト2」のプレイヤーAI「AlphaStar」を発表した。2人のプロゲーマー、「TLO」と「MaNa」との5ゲーム対戦でそれぞれ完勝した。

AlphaStarとプロゲーマー「TLO」とのスタークラフト2対戦画面

　スタークラフト2は、前作スタークラフトと同様、「テラン」「ザーグ」「プロトス」の3種族の陣取りゲーム。プレイヤーはいずれかの種族の司令官となって軍隊を編成し、他の種族と戦う。3つの種族は互いの基地がどこにあるか分からないまま相手の出方によってリアルタイムで戦略を立てる必要があり、非常に複雑だ。

　DeepMindは昨年12月にチェス、将棋、囲碁のそれぞれの世界最強AIを打ち負かしたと発表したが、スタークラフト2はそれらのゲームのようには状況を把握できず、必要な情報を「スカウティング」によって積極的に収集しなければならない。

　また、現実世界と同様に、スタークラフト2の世界では因果関係が常に変動するので、初期段階に立てた戦略は長期的には役に立たなくなる可能性がある。

　こうした多様な課題を克服するために、DeepMindはまず、Blizzardが公開している匿名化された人間のゲーマーによる対戦データでAlphaStarを「教師あり学習」で学習させ、その後マルチエージェントによる「強化学習」を行った。エージェント同士が戦うリーグを作り、継続的に対戦させた。

教師あり学習後、エージェント同士のリーグ戦で強化学習した

　TLOやMaNaのような人間のプロゲーマーの場合、1分当たりに行うアクションは平均で数百回。AlphaStarはTLOとMaNaとの対戦で、1分当たり280回のアクションを行った。数は少ないが、いずれも的確だった。

　MaNaはAlphaStarとの対戦後「AlphaStarが、ほぼすべてのゲームでこちらの高度な戦術を阻止したことに感銘を受けた。自分のプレイがいかに人間のミスを誘う戦術に依存しているかに気づいた」と語った。

　DeepMindは、AlphaStarが獲得した非常に長い一連のデータに対して複雑な予測を行うテクニックは、天気予報、気候モデリング、言語理解など、現実での問題解決にも生かせる可能性があると主張する。

「AlphaZero」がチェス、将棋、囲碁の各世界最強AIを打ち負かす
Google系列のAI企業DeepMindの強化学習採用AI「AlphaZero」が、チェスのAI世界チャンピオン「Stockfish」、世界コンピュータ将棋選手権の2017年の勝者「elmo」、そして自社の囲碁AIで世界最強の「AlphaGo Zero」に勝利した。
Google、データセンター冷却システムをほぼAI制御に　平均30％の省エネ効果
Googleは自社データセンターの冷却システムで2016年からAIを採用しており、現在はAIが対策をアドバイスするだけでなくシステムの制御も担っている。利用開始から約9カ月で、平均30％の省エネ効果が上がったとしている。
DeepMindのAI、マルチプレーヤーゲームで人間以上のチームワークを発揮
DeepMindが、マルチプレーヤーFPS「Quake III Arena」で複数のAIエージェントを訓練したところ、人間のプレーヤーより強くなっただけでなく、勝つためにチームメンバーと協力し合うようになったという論文を発表した。
DeepMind、約70万人分の診療データを米合衆国退役軍人省との提携で獲得
Alphabet傘下のDeepMindが、疾病の早期発見システム構築を目的に、米合衆国退役軍人省の約70万人分の診療データを入手した。すべて匿名化されたものとしている。