AIに「ITパスポート試験」を解かせてみると…… 最もIT分野に詳しいLLMは? GMO子会社が検証
大規模言語モデル(LLM)に国家試験「ITパスポート試験」を解かせてみた──そんな研究成果をGMOグループのGMOメディアが発表した。LLMが持つ推論能力や問題解決能力の特徴を分析するため、IT分野での能力差を検証。GPT-4など、6種類のLLMで比較した。
大規模言語モデル(LLM)に国家試験「ITパスポート試験」を解かせてみた──そんな研究成果をGMOグループのGMOメディア(東京都渋谷区)が発表した。LLMが持つ推論能力や問題解決能力の特徴を分析するため、IT分野での能力差を検証。GPT-4など、6種類のLLMで比較した。
比較に使ったLLMは、米OpenAIの「GPT-3.5」(gpt-3.5-turbo-1106)、「GPT-4」(gpt-4-1106-preview)、Stability AI Japanの「Japanese StableLM Alpha」(Japanese Stable LM Instruct Alpha 7B v2)、東工大と産業技術総合研究所の「Swallow」(Swallow-7B-instruct-hf)、rinnaの「Nekomata」(nekomata-7b-instruction)、ELYZAの「ELYZA-japanese-Llama-2-7b」(ELYZA-japanese-Llama-2-7b-instruct)の6種類。
これらのLLMに、ITパスポート試験の過去問を解かせることでIT分野の問題に対する正答率を調べた。また、ヤフー(現:LINEヤフー)と早稲田大学が2022年に開発した、日本語をどのくらい理解しているか評価するベンチマーク「JGLUE試験」を解かせて、一般常識をどの程度回答できるかも評価した。
結果、ELYZAのLLMが72.3%の精度を記録し、最も高い結果に。続いて、OpenAIのGPT-4(70.53%)とGPT-3.5(69.9%)で続いた。JGLUEの結果は、GPT-4が最も高くて95.42%を記録。次点にGPT-3.5(89.311%)が入り、rinnaのNekomata(81.68%)が続いた。
NekomataやJapanese Stable LMは、JGLUEで高い正答率を示したが、ITパスポート試験では正答率が低く、IT分野が苦手な傾向が見られた。一方、ELYZAのLLMはJGLUEの結果が38.42%と最も低く、一般常識には強くない傾向が見られた。
LLMの回答を導く力を検証するため、LLMにプロンプトを入力しヒントを与えた場合でも、ITパスポート試験を解かせた。結果、ELYZAを除く全てのLLMで正答率が向上し、IT分野が苦手なLLMでもヒントを与えることで解答精度を向上できることが分かった。
この結果から研究チームは「専門分野に特化するチューニングを施していない汎用的なLLMでも、一定の精度でIT分野の正確な解答を期待できるため、ITパスポート試験の学習においても、誤りがある可能性を踏まえた上で、『分からない単語や概念について質問する』『練習問題を作成する』などの活用方法は、一定程度有効であるといえる」と結論付けた。
この研究成果は、人工知能学会が主催する「2024年人工知能学会全国大会」に提出した。
関連記事
- ELYZAが新たな日本語LLMを開発 「GPT-3.5 Turboにも匹敵」 チャット形式のデモサイトも公開
東大発のAIスタートアップ企業であるELYZAは、700億パラメータの大規模言語モデル(LLM)「ELYZA-japanese-Llama-2-70b」を開発したと発表した。日本企業のLLMの性能を大きく上回り、グローバルモデルの性能にも匹敵するという。 - 「GPT-4超え」とうわさのAI「Claude 3」を試す 仕事は任せられる? 若手記者の所感
「ようやく本物の“GPT-4超え”が出てきた」と話題の「Claude 3」。その文章力を見てみる。 - 話題のチャットAI「Claude 3」のプロンプト集、公式が公開中 「Excelの数式作って」など64種
話題のチャットAI「Claude 3」について、提供元の米Anthropicは3月11日までに公式プロンプト集を公開している。「プロンプトライブラリ」と題したWebサイトで、全部で64種類の使用例を公開中。 - 今週、生成AI「Grok」をオープンソースにする──イーロン・マスク氏が発表 「OpenAIはうそつき」
米xAIは今週、生成AI「Grok」をオープンソースにする──同社を率いるイーロン・マスク氏は、X上にそのように投稿した。 - 生成AIに“アスキーアート”入りプロンプト入力→有害コンテンツ出力 米研究者らが新手の脱獄法発見
米ワシントン大学などに所属する研究者らは、大規模言語モデル(LLM)がアスキーアートを正しく認識できないという脆弱性を利用して、LLMに有害なコンテンツを出力させる新しいジェイルブレーク(脱獄)攻撃を提案した研究報告を発表した。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.