米Alphabet傘下のDeepMindは12月5日（現地時間）、同社の囲碁AI「AlphaGo Zero」のアルゴリズムを、囲碁以外にも適用できるようにした盤上ゲームAI「AlphaZero」を発表した。数時間学習させることで、世界トップレベルのチェスAI「Stockfish」、将棋AI「Elmo」、囲碁AI「AlphaGo Zero」「初代AlphaGo」の全ての性能を上回ったとしている。

囲碁以外にも適用できるようにした盤上ゲームAI「AlphaZero」

　囲碁AIであるAlphaGo Zeroは、囲碁のルール以外は与えられない環境下で自身のプログラムどうしで対戦し、最善手を学習していくプログラム。AlphaZeroは、これをさらに一般化し、チェスや将棋のルールのみを与えた状態で学習を重ねた。

　同社の論文によれば、AlphaZeroに対し70万ステップ学習させ、ステップを経るごとに強さの指標であるレーティングを測った。学習には自身どうしの対戦に5000個の第1世代TPUを、ニューラルネットワークの訓練に64個の第2世代TPUを使用した。

　学習の結果、チェスのStockfishには4時間（30万ステップ）で、将棋のElmoには2時間（11万ステップ）の学習でそれらのレーティングを上回り、8時間（16万5000ステップ）の学習で韓国のプロ棋士・李世ドルさんを破った初代AlphaGoを上回った。3日間学習させたAlphaGo Zeroに対しても、24時間以内（約38万ステップ）に性能で上回った。

　学習を完了したAlphaZeroとStockfish、Elmo、AlphaGo Zero（3日間学習）を、それぞれ先攻後攻を切り替えて50回対戦させたところ、どのケースでもAlphaZeroが他のAIに勝ち越した。AlphaZeroとAlphaGo Zeroは4TPUを使用、StockfishとElmoは1GBのハッシュサイズと64スレッドを用いた最大レベルで戦わせた。

AlphaZeroが他のAIに勝ち越し

　1秒当たりに読む手を比較すると、Stockfishは7000万手、Elmoは3500万手と膨大な量を読んでいたのに対し、AlphaZeroがチェスで8万手、将棋で4万手と従来のAIに比べて明らかに少ない手数しか読んでいなかった。「AlphaZeroはディープニューラルネットワークにより最善手に当たりをつけ、より『人間らしい』アプローチで探索している」と、論文では指摘している。

一手の思考時間とレーティングの関係

「AlphaGo Zero」──ビッグデータ不要のAI棋士が自己対局のみで世界最強に
Googleの系列AI企業DeepMindが、世界最強囲碁AI「AlphaGo」の新バージョン「AlphaGo Zero」が、試合データ不要の自己対局のみで、40日後に柯潔九段に勝った先輩AlphaGoに完勝するまでに成長したと発表した。
世界最強となったDeepMindの「AlphaGo」が棋界引退宣言　AI同士の棋譜を公開
世界最強の人間棋士柯潔（カ・ケツ）九段に完勝したDeepMindの囲碁AI「AlphaGo」がこの勝負を最後に引退する。DeepMindは今後、難病治療や新素材開発に活用できる汎用アルゴリズムの開発に注力する。
最強囲碁AI「AlphaGo」全勝　世界最強棋士も敵わず
米Google傘下DeepMindの囲碁AI「AlphaGo」が、囲碁世界レーティング1位の柯潔（カ・ケツ）九段に3番勝負で全勝した。
Google、AIチップ「TPU」はGPUより30倍速い
Googleが人工知能「AlphaGo」やGoogle翻訳などのディープラーニング採用サービスで使っているオリジナルプロセッサ「TPU」はCPUやGPUより15～30倍速いと説明した。