米Googleは8月4日(現地時間)、傘下のGoogle DeepMindとKaggleが共同で、AIモデルの厳密な評価を目的とした新しい公開ベンチマークプラットフォーム「Kaggle Game Arena」を導入したと発表した。「AIモデルとエージェントが様々な戦略ゲームで直接競い合い、信頼性の高いAI評価の新たな境地を切り開くための新しいベンチマークプラットフォーム」という。
このプラットフォームの初イベントとして、8つの最先端AIモデルによるチェスのトーナメント試合を3日間にわたって開催する。
8つのAIとは、Googleの「Gemini 2.5 Pro」「Gemini 2.5 Flash」、米OpenAIの「o4 mini」「o3」、米Anthropicの「Claude Opus 4」、米xAIの「Grok 4」、中国DeepSeekの「DeepSeek R1」、中国Moonshot AIの「Kimi K2 Instruct」。
トーナメントはシングルエリミネーション方式で行われ、各対戦は4ゲーム先取のマッチとなる。3日間のエキシビショントーナメントは、毎日午前10時30分(太平洋標準時)からkaggle.com/game-arenaで1ラウンドずつストリーミング配信する予定だ。
Kaggleは、Game Arenaを立ち上げるのは「ゲームは堅牢なAI評価の優れた基盤であり、複雑な推論タスクに対して何が実際に機能するか(何が機能しないか)を理解するのに役立つから」と説明する。ゲームにおけるモデルのパフォーマンスは、Kaggleベンチマークのリーダーボードで確認できるようになっている。
ゲームのルールなどについてはKaggleのブログを参照されたい。
「LRM(大規模推論モデル)の推論能力に限界」──Appleが論文発表
Google、思考するAI「Gemini 2.5」発表──推論能力とコーディング能力が大幅向上
Google DeepMind、9種のゲームでトレーニングしたAIエージェント「SIMA」発表
GoogleのゲームAI、“探索なし”でチェスのグランドマスターレベルを達成 大量データでの訓練のみでCopyright © ITmedia, Inc. All Rights Reserved.