強化学習（reinforcement learning）は大まかに言うと、学習用のデータを使わずに、AIが選択した行動が正しければ報酬を与えることで、AIの状況判断能力を上げていく機械学習方式。AlphaZeroはまた、行動の選択に「モンテカルロ木探索（MCTS）」と呼ばれる検索アルゴリズムを使う。

　AlphaZeroはこの方法で、チェスを9時間学習した後チェスの世界チャンピオンAI「Stockfish」を、将棋を12時間学習した後世界コンピュータ将棋選手権の2017年の勝者「elmo」に、囲碁を13日間学習した後AlphaGo Zeroに勝利した。

3種目のチャンピオンを打ち負かした

　AlphaZeroはMCTSを使うことで、例えばチェスではチャンピオンのStockfishが1秒当たり約6000万のポジションを検索するのに対し、わずか6万しか検索せずに済むという。

人間のチェスチャンピオン、AlphaZero、Stockfishの1決定当たりの検索量

　また、AlphaZeroは、系列である米Googleのオリジナルプロセッサ「TPU」を5000基使っている。ちなみに、TPUは1基だけで1日当たり1億点のGoogleフォトを処理する能力がある。

　DeepMindは、AlphaZeroの目的はチェスや将棋、囲碁に勝つことの先にあり、様々な実世界の問題を解決するシステムを構築することにあると語った。AlphaZeroは、単一のアルゴリズムが一連の設定で新しい知識を発見する方法を学べることを示しており、まだ初期段階ではあるが「複雑な問題に対する斬新な解決策を見いだす汎用的な学習システムを構築するというわれわれのミッションに自信を与えてくれた」という。

DeepMindのAI、マルチプレーヤーゲームで人間以上のチームワークを発揮
DeepMindが、マルチプレーヤーFPS「Quake III Arena」で複数のAIエージェントを訓練したところ、人間のプレーヤーより強くなっただけでなく、勝つためにチームメンバーと協力し合うようになったという論文を発表した。
「AlphaGo Zero」──ビッグデータ不要のAI棋士が自己対局のみで世界最強に
Googleの系列AI企業DeepMindが、世界最強囲碁AI「AlphaGo」の新バージョン「AlphaGo Zero」が、試合データ不要の自己対局のみで、40日後に柯潔九段に勝った先輩AlphaGoに完勝するまでに成長したと発表した。
PCゲーム「Dota2」でAIが世界トッププロに勝利
AI研究企業OpenAIが開発した人工知能が、PCゲーム「Dota2」の1対1バトルで世界のトッププロに勝利した。
世界最強となったDeepMindの「AlphaGo」が棋界引退宣言　AI同士の棋譜を公開
世界最強の人間棋士柯潔（カ・ケツ）九段に完勝したDeepMindの囲碁AI「AlphaGo」がこの勝負を最後に引退する。DeepMindは今後、難病治療や新素材開発に活用できる汎用アルゴリズムの開発に注力する。