検索
ニュース

「AlphaGo」から進化 将棋とチェスでも世界最強「AlphaZero」

米Alphabet傘下のDeepMindは、同社の囲碁AI「AlphaGo Zero」のアルゴリズムを囲碁以外にも適用できるようにした盤上ゲームAI「AlphaZero」を発表した。

Share
Tweet
LINE
Hatena

 米Alphabet傘下のDeepMindは12月5日(現地時間)、同社の囲碁AI「AlphaGo Zero」のアルゴリズムを、囲碁以外にも適用できるようにした盤上ゲームAI「AlphaZero」を発表した。数時間学習させることで、世界トップレベルのチェスAI「Stockfish」、将棋AI「Elmo」、囲碁AI「AlphaGo Zero」「初代AlphaGo」の全ての性能を上回ったとしている。


囲碁以外にも適用できるようにした盤上ゲームAI「AlphaZero」

 囲碁AIであるAlphaGo Zeroは、囲碁のルール以外は与えられない環境下で自身のプログラムどうしで対戦し、最善手を学習していくプログラム。AlphaZeroは、これをさらに一般化し、チェスや将棋のルールのみを与えた状態で学習を重ねた。

 同社の論文によれば、AlphaZeroに対し70万ステップ学習させ、ステップを経るごとに強さの指標であるレーティングを測った。学習には自身どうしの対戦に5000個の第1世代TPUを、ニューラルネットワークの訓練に64個の第2世代TPUを使用した。

 学習の結果、チェスのStockfishには4時間(30万ステップ)で、将棋のElmoには2時間(11万ステップ)の学習でそれらのレーティングを上回り、8時間(16万5000ステップ)の学習で韓国のプロ棋士・李世ドルさんを破った初代AlphaGoを上回った。3日間学習させたAlphaGo Zeroに対しても、24時間以内(約38万ステップ)に性能で上回った。

 学習を完了したAlphaZeroとStockfish、Elmo、AlphaGo Zero(3日間学習)を、それぞれ先攻後攻を切り替えて50回対戦させたところ、どのケースでもAlphaZeroが他のAIに勝ち越した。AlphaZeroとAlphaGo Zeroは4TPUを使用、StockfishとElmoは1GBのハッシュサイズと64スレッドを用いた最大レベルで戦わせた。


AlphaZeroが他のAIに勝ち越し

 1秒当たりに読む手を比較すると、Stockfishは7000万手、Elmoは3500万手と膨大な量を読んでいたのに対し、AlphaZeroがチェスで8万手、将棋で4万手と従来のAIに比べて明らかに少ない手数しか読んでいなかった。「AlphaZeroはディープニューラルネットワークにより最善手に当たりをつけ、より『人間らしい』アプローチで探索している」と、論文では指摘している。


一手の思考時間とレーティングの関係

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る