ITmedia NEWS > 社会とIT >
ITmedia AI+ AI活用のいまが分かる

AIに「ITパスポート試験」を解かせてみると…… 最もIT分野に詳しいLLMは? GMO子会社が検証

» 2024年03月12日 17時59分 公開
[松浦立樹ITmedia]

 大規模言語モデル(LLM)に国家試験「ITパスポート試験」を解かせてみた──そんな研究成果をGMOグループのGMOメディア(東京都渋谷区)が発表した。LLMが持つ推論能力や問題解決能力の特徴を分析するため、IT分野での能力差を検証。GPT-4など、6種類のLLMで比較した。

IT分野に詳しいLLMは?

 比較に使ったLLMは、米OpenAIの「GPT-3.5」(gpt-3.5-turbo-1106)、「GPT-4」(gpt-4-1106-preview)、Stability AI Japanの「Japanese StableLM Alpha」(Japanese Stable LM Instruct Alpha 7B v2)、東工大と産業技術総合研究所の「Swallow」(Swallow-7B-instruct-hf)、rinnaの「Nekomata」(nekomata-7b-instruction)、ELYZAの「ELYZA-japanese-Llama-2-7b」(ELYZA-japanese-Llama-2-7b-instruct)の6種類。

 これらのLLMに、ITパスポート試験の過去問を解かせることでIT分野の問題に対する正答率を調べた。また、ヤフー(現:LINEヤフー)と早稲田大学が2022年に開発した、日本語をどのくらい理解しているか評価するベンチマーク「JGLUE試験」を解かせて、一般常識をどの程度回答できるかも評価した。

 結果、ELYZAのLLMが72.3%の精度を記録し、最も高い結果に。続いて、OpenAIのGPT-4(70.53%)とGPT-3.5(69.9%)で続いた。JGLUEの結果は、GPT-4が最も高くて95.42%を記録。次点にGPT-3.5(89.311%)が入り、rinnaのNekomata(81.68%)が続いた。

各LLMの評価結果

 NekomataやJapanese Stable LMは、JGLUEで高い正答率を示したが、ITパスポート試験では正答率が低く、IT分野が苦手な傾向が見られた。一方、ELYZAのLLMはJGLUEの結果が38.42%と最も低く、一般常識には強くない傾向が見られた。

 LLMの回答を導く力を検証するため、LLMにプロンプトを入力しヒントを与えた場合でも、ITパスポート試験を解かせた。結果、ELYZAを除く全てのLLMで正答率が向上し、IT分野が苦手なLLMでもヒントを与えることで解答精度を向上できることが分かった。

 この結果から研究チームは「専門分野に特化するチューニングを施していない汎用的なLLMでも、一定の精度でIT分野の正確な解答を期待できるため、ITパスポート試験の学習においても、誤りがある可能性を踏まえた上で、『分からない単語や概念について質問する』『練習問題を作成する』などの活用方法は、一定程度有効であるといえる」と結論付けた。

 この研究成果は、人工知能学会が主催する「2024年人工知能学会全国大会」に提出した。

Copyright © ITmedia, Inc. All Rights Reserved.