ITmedia NEWS > 企業・業界動向 >

MicrosoftのAIが「ミズ・パックマン」で全面クリア

» 2017年06月15日 08時03分 公開
[佐藤由紀子ITmedia]

 米Microsoftの研究部門であるMicrosoft Researchは6月14日(現地時間)、「強化学習」採用の人工知能(AI)で、家庭用ゲーム機「Atari 2600」版の1980年代のゲーム「Ms. Pac-Man」(ミズ・パックマン)で99万9990という最高スコアを打ち出したと発表した。

 pac-man 1 最高スコアの瞬間

 201面でのこのスコアが最高点であることは、達成後スコアが0に戻ったことで判断した。

 ミズ・パックマンは、1981年に人気ゲーム「パックマン」のクローンとして開発され、後にナムコに公認されたアーケードゲーム。ゴーストの動きがランダムだったり、フルーツも迷路内を移動するなど、オリジナルパックマンより難しい。

 コンプリートに成功したのは、Microsoftが1月に買収したカナダのディープラーニング企業Maluubaのチーム。

 同社が「Hybrid Reward Architecture」と呼ぶアーキテクチャを採用するこのAIは、150以上の単目的のエージェントとそれらのエージェントの情報に基いて総合的な判断をするトップエージェントで構成される。部下のエージェントはそれぞれパラレルに働き、自分にとって最善の決定をトップエージェントに報告し、トップエージェントはそれを総合して判断する。

 例えば、多くの部下が「フルーツが右方向にあるから右に行きたい」と主張しても、2つの部下が「右に行くとゴーストがいるから左に行くべきだ」と主張すれば、トップは左に行く方を選ぶ。

 pac 2

 Hybrid Reward Architectureは、米Alphabet傘下のDeepMindの「DQN」と同様に「強化学習」を使っている。強化学習は、「教師あり学習」と異なり正解を与えずにAIが出す答えを評価していくことで学習させるので、正解のない事象で最善策を決めるのに役立つ。

 Microsoftは、強化学習採用AIエージェントは、高度で複雑な知的労働での意思決定支援に活用できるとしている。


変更履歴:当初、DQNでは強化学習を採用していないという記述にしていましたが、https://deepmind.com/research/dqn/を確認し、訂正しました。[2017/6/15 16:00]



Copyright © ITmedia, Inc. All Rights Reserved.