AIは「ポケモン赤」をクリアできるのか？　Claude 3.7 Sonnetが“ゲーム実況”、開発元がプレイ動画を配信中

» 2025年02月26日 16時12分公開

[ITmedia]

　米Anthropicは2月26日、同社の最新AIモデル「Claude 3.7 Sonnet」がゲーム「ポケットモンスター赤」（ポケモン赤）をプレイする様子を「Twitch」で配信中だ。同AIモデルの性能を示すためのプロジェクトとみられる。

「Claude 3.7 Sonnet」がゲーム「ポケットモンスター赤」をプレイする配信を開始（画像は公式Xのポストより引用）

　Claude 3.7 Sonnetは、Anthropicが25日に発表したAIモデルで、大規模言語モデル（LLM）と、数学やコーディングなどのタスクを得意とする「推論モデル」を1つのモデルに統合している「ハイブリッド推論モデル」なのが特徴。推論モデルを活用した推論能力の向上などにより、コーディングのタスクでは、米OpenAIのAIモデル「o1」を大幅に超える性能を示したという。

　またAnthropicはベンチマークの一環として、Claude 3.7 Sonnetにポケモン赤をプレイさせた。同AIモデルはポケモン赤をプレイするために開発されたわけではないため、ゲーム画面内で主人公を移動させるための機能などを搭載。継続的にポケモン赤をプレイできるようにして、Claude 3.7 Sonnetの性能を検証した。

　その結果、Claude 3.7 Sonnetはゲームの中間ボスにあたる「ジムリーダー」3人との戦いに勝ち、勝利の証である「ジムバッジ」を獲得した。ゲームのプレイにあたり、同AIモデルは、複数の戦略を試し、それまでの仮定を更新。ゲームをプレイする能力を高めたとしている。

　一方、推論能力を持たない旧モデル「Claude 3.0 Sonnet」でも同様に検証したところ、ゲームのストーリーが始まる「パレットタウン」も抜け出せなかったという。これを踏まえAnthropicは、Claude 3.7 Sonnetについて「これまでのSonnetモデルのなかでポケモン赤をプレイする能力が最も高い」と説明している。

モデル別のポケモンのプレイ性能（画像は公式ブログより）

　今回の配信は、検証したClaude 3.7 Sonnetのポケモンのプレイ性能を示すための実演とみられる。配信の説明欄には「Claudeがカントー地方を旅し、かわいいポケモンを育て、8つ全てのジムバッジを獲得する姿をご覧ください」と記載。画面の左にはClaude 3.7 Sonnetの思考の過程が、右にはポケモン赤をプレイする姿が映し出されており、チャット欄は「Claude、大丈夫だ。落ち着け」「完璧だ！」などのコメントで盛り上がっている。

Anthropic、「Claude 3.7 Sonnet」公開　「o1」を大きく上回るコーディング性能
米Anthropicは、ハイブリッド推論モデル「Claude 3.7 Sonnet」を発表した。
Xの最新AI「Grok 3」爆速レビュー　ChatGPTとの能力差や“ネットの話題把握力”をチェック
イーロン・マスク氏率いる米AI企業xAIが2月18日に公開した、チャットAIアシスタント「Grok」の最新モデル「Grok 3」。有料プラン契約者向けに順次提供が始まっており、記者も一部機能のβ版を手元で使える状況になったので、軽く触ってみた感想を伝える。
「私はOpenAIのAIアシスタント」――中国産AI「DeepSeek R1」の“疑惑の返答”がSNSで物議に
「私はOpenAIのAIアシスタント」――中国AIスタートアップ・DeepSeek社の大規模言語モデル（LLM）「DeepSeek-R1」がチャットでこんな返答をするとX上で物議を醸している。
「ポケモンGO」、ファミマでギフトカード販売へ　一方Xでは“売却報道”で懸念の声も
米Nianticは、スマートフォンゲーム「Pokemon GO」で使えるギフトカードを全国の「ファミリーマート」で発売すると発表した。
「ポケポケ」強し──DeNA、ゲーム事業の利益が8126.8％増　「これまでのタイトルと比べて継続率が非常に高い」
ディー・エヌ・エーは、2025年3月期第3四半期決算（24年10月1日～12月31日）を発表した。スマートフォンゲーム「Pokemon Trading Card Game Pocket」（ポケポケ）を10月にリリースした同社だが、人気を博し、ゲーム事業の利益が大きく増加した。