大学入試共通テストが行われた先週、「生成AIに試験問題を解かせてみた」というブログ(note)を紹介した記事がアクセス7位に入った。
点数を競ったのは、米OpenAIの「ChatGPT」(GPT-4)、米Googleの「Bard」、米Anthropicの「Claude2」の3つの文章生成AI。企業へのAI導入コンサルティングなどを手掛けるLifePrompt(東京都千代田区)による実験だ。
結果を一読して意外だったのは、数学の正答率の圧倒的な低さだ。どのAIも受験生の平均点予想を上回れず、正答率は最大で46%(ChatGPTの「数学2B」)。Bardの「数学1A」に至ってはわずか6%しか取れていない。英語や国語、歴史科目などに比べても、目に見えて低い数字だ。
AIやコンピュータ、ロボットが「できること」のイメージは、ChatGPT以降、大きく変わったように思う。それまでは、AIやコンピュータは、特に数字や計算に関しては「間違わない」イメージがあった。今回の実験ブログを読む前、筆者も「受験5教科の中なら、AIは数学が一番得意では」と予想したのだが、真逆の結果だったのだ。
なぜ数学の正答率が低かったのか。LifePromptは、(1)生成AIの計算スキルが高校数学の範囲を簡単に解けるレベルまで進化していなかったこと、(2)共通テスト数学の特殊な解答形式に対応できなかったこと――をその理由に挙げている。
(2)のキモは、問題文と回答欄の読み解きだ。共通テストの問題は、問題文や式の中に四角い空欄が設けられ、「ア」「イ」などと片仮名がふられて、そこにあてはまる数字や記号を答える形式。Google BardやClaude2は特に、片仮名の当てはめでミスをしたという。
つまり、人間に解かせるために作られた問題形式の読み解きが、AIにはまだ難しい(正確に解かせるためには、より適切なプロンプトを与えてやる必要がある)ということのようだ。
かつて、SF的なAIやロボットのイメージは、完璧に計算できてロジカルで冷たくて、人間が太刀打ちできない何かだった。だが、こうして生成AIが日常に浸透してくると、イメージと違うところも多く、意外と“ポンコツ”な部分もあるんだなあとホッコリすることがある。
なんて言っていられるのも今年のうちぐらいで、2025年ごろにはもっと完璧なAIが現れて、「これが……シンギュラリティ……」とか言っているのかもしれないが。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR