AIは「共通テスト」をどう解いた？　詳細をnoteで公開　全AIが間違えたのは「イラスト」と「人間感情」の読み取り（2/2 ページ）

専用受験システムで、API経由で受験させた。ChatGPTが最高得点だったが、他のAIより回答に3倍の時間がかかっていることなどが明らかに。

[岡田有花，ITmedia] PC用表示関連情報

LINE

Hatena

前のページへ | 　　　　　　

全AIが間違えたのは、「イラスト」と「人間理解」の問題

　AIが共通で間違える問題の傾向も見えた。まず、「テキストは完璧に理解できているのに、図が選べない」という現象が起きた。

　例えば、英語リスニングの「バスの乗り方」で、「後ろから乗って、前から降りる」という手順を全AIが理解していたが、選択肢のバスのイラスト（矢印が前後のドアに向いている図）を選ぶ時に全モデルが誤答した。

　同社は「AIにとって、イラストの微妙な矢印の意味や、空間的な奥行きを論理と結びつけるのは、まだ至難の業のようだ」とコメントしている。

　また、国語の小説でも、全モデルが誤答した問題があった。人間の心情理解の問題だ。

　主人公が、理想を捨て安楽な生活を送る自分を「これでいいんだ」と正当化しようとしているとき、母の死に顔が浮かび、心が揺らぐ……というシーンの心情について、正解は「現状への妥協（割り切れない思い）」だが、AIは「過去の過ちへの反省」を選んだ。

　「AIは基本的に『間違いは正すべき』『人は反省して成長するもの』という道徳的な学習データを大量に持っています。そのため、人間特有の『悪いと分かっていても正当化してしまう弱さ』や『割り切れない感情』を読み取れず、『反省しているはずだ』という一般論の解釈に逃げてしまった」と同社は分析している。

　地理や世界史では、「地図・グラフの読み取りミス」が多発。色の濃淡（ヒートマップ）で示された分布図の問題では、全モデルが色の微妙な違いを識別できなかった。

関東の濃淡図

　一方で、地図上の位置とグラフの特徴を結びつけるの問題は、Geminiだけが正答。他AIは、画像を「文字情報の塊」として処理しようとし、純粋なビジュアル情報の読み取りが苦手だった。

　昨年まで苦手だった数学IAと日本史は克服した。昨年のAIは、図形問題がボロボロだったが、GPT-5.2は、図形を「絵」としてではなく、「座標データ」として脳内で再構築する能力を手に入れたことで満点を取ってみせた。

　また、昨年までは英語圏のデータが主体で、AIが「日本のマニアックな歴史」に疎かったが、この1年で日本語のテキストデータを大量に学習。「なぜその政策が行われたのか？」という歴史の因果関係も理解するようになったため、資料読解問題でも文脈から正解を導き出せるようになった。

　結果を受けて同社は「もはやAIに解けない試験はないと言えるレベルまで到達している」としつつも、「わずか数問のミスにこそ、視覚情報の処理や、人間の感情理解といったAIの本質的な課題が隠れていたのも事実」と分析。

　AIごとに得意不得意があり、「万能なAIはまだ存在しない」ことが分かったし、異なる強みを持つモデルを「異なるスキルを持った同僚たち」のように組織内に配置し、使い分けることが重要だとコメントしている。