AIに「ITパスポート試験」を解かせてみると……　最もIT分野に詳しいLLMは？　GMO子会社が検証

大規模言語モデル（LLM）に国家試験「ITパスポート試験」を解かせてみた──そんな研究成果をGMOグループのGMOメディアが発表した。LLMが持つ推論能力や問題解決能力の特徴を分析するため、IT分野での能力差を検証。GPT-4など、6種類のLLMで比較した。

[松浦立樹，ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

　大規模言語モデル（LLM）に国家試験「ITパスポート試験」を解かせてみた──そんな研究成果をGMOグループのGMOメディア（東京都渋谷区）が発表した。LLMが持つ推論能力や問題解決能力の特徴を分析するため、IT分野での能力差を検証。GPT-4など、6種類のLLMで比較した。

IT分野に詳しいLLMは？

　比較に使ったLLMは、米OpenAIの「GPT-3.5」（gpt-3.5-turbo-1106）、「GPT-4」（gpt-4-1106-preview）、Stability AI Japanの「Japanese StableLM Alpha」（Japanese Stable LM Instruct Alpha 7B v2）、東工大と産業技術総合研究所の「Swallow」（Swallow-7B-instruct-hf）、rinnaの「Nekomata」（nekomata-7b-instruction）、ELYZAの「ELYZA-japanese-Llama-2-7b」（ELYZA-japanese-Llama-2-7b-instruct）の6種類。

　これらのLLMに、ITパスポート試験の過去問を解かせることでIT分野の問題に対する正答率を調べた。また、ヤフー（現:LINEヤフー）と早稲田大学が2022年に開発した、日本語をどのくらい理解しているか評価するベンチマーク「JGLUE試験」を解かせて、一般常識をどの程度回答できるかも評価した。

　結果、ELYZAのLLMが72.3％の精度を記録し、最も高い結果に。続いて、OpenAIのGPT-4（70.53％）とGPT-3.5（69.9％）で続いた。JGLUEの結果は、GPT-4が最も高くて95.42％を記録。次点にGPT-3.5（89.311％）が入り、rinnaのNekomata（81.68％）が続いた。

各LLMの評価結果

　NekomataやJapanese Stable LMは、JGLUEで高い正答率を示したが、ITパスポート試験では正答率が低く、IT分野が苦手な傾向が見られた。一方、ELYZAのLLMはJGLUEの結果が38.42％と最も低く、一般常識には強くない傾向が見られた。

　LLMの回答を導く力を検証するため、LLMにプロンプトを入力しヒントを与えた場合でも、ITパスポート試験を解かせた。結果、ELYZAを除く全てのLLMで正答率が向上し、IT分野が苦手なLLMでもヒントを与えることで解答精度を向上できることが分かった。

　この結果から研究チームは「専門分野に特化するチューニングを施していない汎用的なLLMでも、一定の精度でIT分野の正確な解答を期待できるため、ITパスポート試験の学習においても、誤りがある可能性を踏まえた上で、『分からない単語や概念について質問する』『練習問題を作成する』などの活用方法は、一定程度有効であるといえる」と結論付けた。

　この研究成果は、人工知能学会が主催する「2024年人工知能学会全国大会」に提出した。

AIに「ITパスポート試験」を解かせてみると……　最もIT分野に詳しいLLMは？　GMO子会社が検証

関連記事

関連リンク

AIに「ITパスポート試験」を解かせてみると…… 最もIT分野に詳しいLLMは？ GMO子会社が検証

関連記事

関連リンク

AIに「ITパスポート試験」を解かせてみると……　最もIT分野に詳しいLLMは？　GMO子会社が検証