東京大学は2月16日、OpenAIの大規模言語モデル「GPT」シリーズ(「o1」「o3」「4o」)を使い、日本の獣医師国家試験の解答性能を検証した結果、合格基準を大幅に上回る正答率を記録したと発表した。中でも、推論に特化した最新モデル「o3」は、全体合計で92.9%と最も正答率が高かった。
問題は日本語原文のまま、プロンプトの最適化を行わなくても正答率は高いという結果で、「GPTが日本の獣医学部卒業レベル以上の知識を持っていることを示唆している」と研究グループは述べている。
発表したのは、東大大学院農学生命科学研究科のグループ。推論特化型の最新モデル「GPT-o3」と、前世代の「GPT-o1」、マルチモーダルモデルの「GPT-4o」を活用した。プロンプトの工夫・英語翻訳の有無が正答率に与える影響も評価した。
評価には過去3年分の獣医師国家試験を使った。試験は獣医療・獣医学の基本的事項や衛生学や獣医臨床学などに関連する幅広い問題が、5つのセクション(必須問題、A〜D問題)に分けて出題される。必須問題で7割、A〜D問題で6割の得点率が合格基準だ。
検証の結果、推論に特化した最新の「o3」モデルは最も高い92.9%という正答率を記録した。前世代の「o1」やマルチモーダルモデルの「4o」も合格基準をクリアしたが、正答率は「o3」に及ばなかった。
GPTが不正解だった問題を分析したところ、AIの弱点も判明。国内法規に基づく法律問題や画像問題、複数の情報を統合して論理的に判断する臨床問題では正答率が低下することが分かった。
論文は学術誌「Scientific Reports」に掲載された。
研究グループは、「日本国内の獣医学教育や実務現場で、学習支援や業務支援などの補助的な用途でGPTが活用されうることを示す基盤的な研究」としており、「GPTが獣医師に代わって診断や治療などの業務を行うことを想定したものではない」と強調している。
これまで、医師国家試験におけるGPTの解答性能の検証はさまざまな国で行われており、英語に翻訳することで合格最低点を超えることが報告されていた。一方で、日本語で出題される日本獣医師国家試験でのGPTの回答性能は検証されていなかった。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
AIは「共通テスト」をどう解いた? 詳細をnoteで公開 全AIが間違えたのは「イラスト」と「人間感情」の読み取り
専用受験システムで、API経由で受験させた。ChatGPTが最高得点だったが、他のAIより回答に3倍の時間がかかっていることなどが明らかに。
推論特化の最新モデル「o3」と「o4-mini」登場 ChatGPT有料版で利用可能 AIの“視覚”も大幅進化
米OpenAIは、新たなAIモデル「o3」と「o4-mini」を公開した。4月16日からChatGPTの有料会員向けに提供を開始した。
OpenAI「GPT-4.5」、チューリングテストに合格 7割超が“人間と誤認” 米カリフォルニア大
米カリフォルニア大学の研究チームは、米OpenAIのAIモデル「GPT-4.5」が、人間とAIを見分ける試験「チューリングテスト」に合格したとする査読前論文を発表した。試験では70%超がGPT-4.5を人間と誤認したという。
大学入試共通テスト、3つのチャットAIに解かせてみたら? GPT-4はバケモノだった
LifePromptは16日、大学入試共通テストを3つのチャットAIに解かせた結果を「note」で公開した。「やはりGPT-4はバケモノだった」という。
「GPT-4」搭載ChatGPTは、日本の司法試験に合格できるか 英語なら上位10%のスコアで合格レベル 結果は?
AIチャットbot「ChatGPT」「新しいBing」に、人間には答えにくい質問や、答えのない問い、ひっかけ問題を尋ねてみたらどんな反応を見せるのか。それぞれの反応からAIの可能性、テクノロジーの奥深さ、AIが人間に与える“示唆”を感じ取ってほしい。


