AIは「共通テスト」をどう解いた? 詳細をnoteで公開 全AIが間違えたのは「イラスト」と「人間感情」の読み取り(1/2 ページ)
2026年の共通テストを、生成AI「ChatGPT」「Gemini」「Claude」の各モデルに解かせた結果について、詳細な内容を、AIベンチャーのLifePromptがnoteで公開している。
ChatGPTが9科目で満点を取ったことが注目されたが、回答するのに他AIの3倍の時間がかかっていたことや、AIが共通して間違えた問題には、人間感情への“AI的な誤解”が背景にあったことなどを分析している。
高性能AIモデル3つ、API経由で回答 思考モード活用
受験させた科目は、英語(リーディング/リスニング)、国語、数学(IA/II・B・C)、社会(歴史総合・世界史探究/歴史総合・日本史探究/地理総合・地理探究/公共・政治・経済)、理科(物理/化学)、理科基礎(物理基礎/化学基礎/地学基礎/生物基礎)、情報(情報I)。
検証したモデルは「GPT-5.2 Thinking」「Google Gemini 3 Pro」「Claude 4.5 Opus」。
各モデルの能力を最大限に引き出すため、GPT-5.2 Thinkingはバックグラウンドモードを使用し、タイムアウトを回避して数分間の思考時間を許容した。Claude 4.5 Opusは「Thinking Mode」を有効化し、思考プロセスを出力。Gemini 3 Proは画像認識精度を高めるため、Thinking Levelを「High」に設定した。
専用の自動受験システムを開発し、API経由で受験した。まず、問題のPDFをシステムにアップロードし、全ページを画像化。同時にテキスト解析を実施。「どこからどこまでが第1問か」という構造を自動判定し、問題を大問ごとに切り分け、API経由で各AIモデルに送信した。
AIが出力した自由記述の回答は、別のAIプロセスで読み取り、「問1は『3』、問2は『4』」など採点可能なマークシート形式に自動変換した。
音声データの直接入力が難しいため、英語のリスニングはスクリプトをテキストで入力。縦書き文章は多くのAIが苦手としているため、国語の縦書き文は、事前にNotebookLMで文字起こししたテキストデータを使った。
結果はGPTが圧勝 だが時間は3倍かかった
結果は、文系・理系科目ともGPT-5.2 Thinkingが97%の得点率で、91~94%だったGemini/Claudeに圧勝した。一方で、かかった時間はGPTが5時間30分ほど、GeminiとClaude が1時間40分前後と、GPTの3分の1ほどの時間で解いてみせた。
GeminiやClaudeが「直感とスピード」を両立させて解き進めるのに対し、GPT-5.2 Thinkingは、1問に対して数分間、人間の思考のように「自問自答」と「検算」を繰り返してから答えを出力する「圧倒的な慎重さ」があるため、高い得点をマークした反面、時間がかかったという。
Copyright © ITmedia, Inc. All Rights Reserved.
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
NRIセキュア、未公表の脆弱性を「Mythosと同等のレベルで」検出する診断サービス提供
-
2
OpenAI、次世代「GPT-5.6」シリーズを限定プレビュー 米政府と調整、命名は「Sol/Terra/Luna」に刷新
-
3
「今日言うつもりはなかったが……」 孫正義氏が明かした「ロボット自動量産工場」の実態
-
4
Sakana AI、一部「ミュトス越えの性能」うたうAIを提供 複数モデルの“集合知”を活用
-
5
「Transformerの最大475倍」 富士通、GPUを効率的に使うLLMアーキテクチャ「PHOTON」開発
-
6
Amazon Bedrockのトークン処理量、26年1Qだけで過去累計超え AWSが目指す、AIのための「信頼できるインフラ」
-
7
AIモデル「ミュトス」、米国の一部組織に再提供へ 米政府が許可
-
8
OpenAIの高度AIでソフトバンクの脆弱性を1万件発見 孫正義氏「大変な危機」 日本の重要インフラ企業へ診断サービス提供
-
9
Google、「Gemini 3.5 Flash」に「Computer Use」を標準搭載──AIが画面を見てブラウザやアプリを操作
-
10
東電出資に意欲 孫正義氏が「国内データセンター誘致」で狙うインフラ戦略
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR