ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

人だと正解率92%なのに、GPT-4だと15%になる新型テスト集「GAIA」 米Metaなどが開発Innovative Tech

» 2023年12月08日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: @shiropen2

 米Metaや米HuggingFaceなどに所属する研究者らが発表した論文「GAIA: a benchmark for General AI Assistants」は、難しいタスクではなく、人間にとって簡単なタスクを達成する大規模言語モデル(LLM)を評価するためのベンチマークを提案している。この研究は、人間が日常で当たり前に実行してほしいタスクを正確にこなすLLM構築を目指すためのテスト集である。

論文のトップページ

 現在のベンチマークは、人間にとってより困難なタスクを求めており、LLMには数学や法律などの複雑なタスクや、一貫性のある本を書くなどの複雑な課題が課せられている。しかし、これらのタスクが一般的な人間にとって本当に必要とされるものであるかどうかは疑問である。

 これらの背景から、新しいベンチマーク「GAIA」が提案された。GAIAには、466の綿密の質問とその解答が含まれており、3段階の難易度で構成。これらの質問はテキストベースであり、ときにはファイル(画像やスプレッドシートなど)も含まれる。質問の数量は少ないが、内容は厳選されている。質問は短く、単一の回答を求めるように設計されているため、検証が容易である。

 質問は、非専門家の人間でもほぼ完璧なスコアが出せるほどシンプルで、主にWebなどさまざまな情報源から情報を探し出し、変換して正確な回答を生成して構成している。例えば、次のような質問と回答のセットである。

質問(レベル1)「NIHのWebサイトに掲載されている、2018年1月〜5月の尋常性ざ瘡患者におけるピロリ菌に関する臨床試験の実際の登録者数は?」

回答「90」

質問(レベル3)「2006年1月21日のNASAのAstronomy Picture of the Dayには、2人の宇宙飛行士が写っており、一方がもう一方よりもずっと小さく見えます。2023年8月時点で、小さい方の宇宙飛行士が所属していたNASA宇宙飛行士グループの中で、宇宙で過ごした時間が最も少ないのは誰で、その人は宇宙で何分過ごしましたか?分数は最も近い分数に四捨五入してください。宇宙で過ごした時間がない宇宙飛行士は除外してください。宇宙飛行士の名字と分数をセミコロンで区切って答えてください。分数には千の位の区切りとしてコンマを使用してください」

回答「White; 5876」

GAIAの質問例

 最先端のLLMが人間にとって難しいタスクでは優れた成果を示しているにもかかわらず、GAIAのテストでは低い成績を収めた。具体的には、人間の回答者が92%の成功率を達成する一方で、プラグインを装備したGPT-4は15%の成功率であった。最も易しい課題でさえ30%の成功率しか達成できず、最も難しい課題では成功率が0%にとどまった。

 この顕著な性能の差は、法律や化学などの専門スキルが必要なタスクで人間を上回るというLLMの傾向とは対照的である。

GAIAの質問とGPT-4の解答例(1/5)
GAIAの質問とGPT-4の解答例(2/5)
GAIAの質問とGPT-4の解答例(3/5)
GAIAの質問とGPT-4の解答例(4/5)
GAIAの質問とGPT-4の回答例(5/5)

Source and Image Credits: Mialon, Gregoire, et al. “GAIA: a benchmark for General AI Assistants.” arXiv preprint arXiv:2311.12983(2023).



Copyright © ITmedia, Inc. All Rights Reserved.