AIは「共通テスト」をどう解いた? 詳細をnoteで公開 全AIが間違えたのは「イラスト」と「人間感情」の読み取り(2/2 ページ)
専用受験システムで、API経由で受験させた。ChatGPTが最高得点だったが、他のAIより回答に3倍の時間がかかっていることなどが明らかに。
全AIが間違えたのは、「イラスト」と「人間理解」の問題
AIが共通で間違える問題の傾向も見えた。まず、「テキストは完璧に理解できているのに、図が選べない」という現象が起きた。
例えば、英語リスニングの「バスの乗り方」で、「後ろから乗って、前から降りる」という手順を全AIが理解していたが、選択肢のバスのイラスト(矢印が前後のドアに向いている図)を選ぶ時に全モデルが誤答した。
同社は「AIにとって、イラストの微妙な矢印の意味や、空間的な奥行きを論理と結びつけるのは、まだ至難の業のようだ」とコメントしている。
また、国語の小説でも、全モデルが誤答した問題があった。人間の心情理解の問題だ。
主人公が、理想を捨て安楽な生活を送る自分を「これでいいんだ」と正当化しようとしているとき、母の死に顔が浮かび、心が揺らぐ……というシーンの心情について、正解は「現状への妥協(割り切れない思い)」だが、AIは「過去の過ちへの反省」を選んだ。
「AIは基本的に『間違いは正すべき』『人は反省して成長するもの』という道徳的な学習データを大量に持っています。そのため、人間特有の『悪いと分かっていても正当化してしまう弱さ』や『割り切れない感情』を読み取れず、『反省しているはずだ』という一般論の解釈に逃げてしまった」と同社は分析している。
地理や世界史では、「地図・グラフの読み取りミス」が多発。色の濃淡(ヒートマップ)で示された分布図の問題では、全モデルが色の微妙な違いを識別できなかった。
一方で、地図上の位置とグラフの特徴を結びつけるの問題は、Geminiだけが正答。他AIは、画像を「文字情報の塊」として処理しようとし、純粋なビジュアル情報の読み取りが苦手だった。
この1年でAIが日本を学び、「日本史」を克服
昨年まで苦手だった数学IAと日本史は克服した。昨年のAIは、図形問題がボロボロだったが、GPT-5.2は、図形を「絵」としてではなく、「座標データ」として脳内で再構築する能力を手に入れたことで満点を取ってみせた。
また、昨年までは英語圏のデータが主体で、AIが「日本のマニアックな歴史」に疎かったが、この1年で日本語のテキストデータを大量に学習。「なぜその政策が行われたのか?」という歴史の因果関係も理解するようになったため、資料読解問題でも文脈から正解を導き出せるようになった。
万能なAIはまだない
結果を受けて同社は「もはやAIに解けない試験はないと言えるレベルまで到達している」としつつも、「わずか数問のミスにこそ、視覚情報の処理や、人間の感情理解といったAIの本質的な課題が隠れていたのも事実」と分析。
AIごとに得意不得意があり、「万能なAIはまだ存在しない」ことが分かったし、異なる強みを持つモデルを「異なるスキルを持った同僚たち」のように組織内に配置し、使い分けることが重要だとコメントしている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
大学入試共通テスト、3つのチャットAIに解かせてみたら? GPT-4はバケモノだった
LifePromptは16日、大学入試共通テストを3つのチャットAIに解かせた結果を「note」で公開した。「やはりGPT-4はバケモノだった」という。
AIは予想より“ポンコツ”だった? 共通テストの数学、ChatGPTでも平均点未満という結果に驚く
大学入試共通テストが行われた先週、生成AIに試験問題を解かせてみた、というブログ(note)を紹介した記事がアクセス7位に入った。点数を競ったのは、米OpenAIの「ChatGPT」(GPT-4)、米Googleの「Bard」、米Anthropicの「Claude2」の3つの文章生成AIだ。
大学入学共通テスト、今年から問題のSNS投稿禁止に これまでも「認めていたわけではない」
2026年は1月17日〜18日に実施予定の大学入学共通テスト(旧センター試験)。これまでは問題が即座にSNSで共有され、ユニークなものが話題になることもあったが、今年の試験では同様の行為が禁止に。試験を実施する大学入試センターの担当者によれば、主に著作権上の問題を意識した対応という。
初実施の「情報I」、他教科より扱いが“軽い“現状にもの申す 各問題の意味することとは?
1月18日と19日、全国で大学入学共通テストが実施された。国公立大学を一般入試で受験する生徒には毎年恒例の試験ではあるが、2025年は新たに必修教科として「情報」が追加された。現役社会人の視点から見て、この試験問題の意味するところを考えてみたい。
“東大断念”も「近未来AIとしての結果に驚き」──人工頭脳「東ロボくん」、今年は535大学が合格圏内に
大学入試問題でAIの進化を測る「ロボットは東大に入れるか」プロジェクトが2016年の成果を報告。昨年を大きく上回る成績を記録したという。
