検索
ニュース

GPT-4の精度は悪化している? 3月に解けた数学の問題解けず GPT-3.5にも敗北──米国チームが検証

「GPT-4の精度は時間と共に変わっている」──そんな研究成果を米スタンフォード大学と米カリフォルニア大学バークレー校の研究チームが発表した。3月と6月時点のGPT-4の精度を比較したところ、一部タスクでは精度が大きく悪化していたという。

Share
Tweet
LINE
Hatena

 「GPT-4の精度は時間とともに変わっている」──そんな研究成果を米スタンフォード大学と米カリフォルニア大学バークレー校の研究チームが発表した。3月と6月時点のGPT-4の精度を比較したところ、一部タスクでは精度が大きく悪化していたという。ただし、この論文は査読前のもので第三者によるレビューは受けていない。


「GPT-4の精度は時間とともに変わっている」と米国チームが報告

 GPT-4は、米OpenAIが提供する大規模言語モデル(LLM)。3月の発表後、チャットAI「ChatGPT」にも搭載され、性能の高さが大きな話題を集めた。LLMは、データのフィードバックや設計変更などをすると性能が変化する。しかし、OpenAIはLLMの更新について発表しておらず、公開以後の性能変化も明らかにしていない。そこで研究チームは、3月と6月時点でのGPT-4、前モデルであるGPT-3.5に精度の違いがあるのか検証した。

 実験ではChatGPTに対して「数学の問題の回答」「機密/危険な問題に答えを出すか」「コードの生成」「視覚的推論」の4つのタスクを依頼し、それぞれの精度を比較した。その結果、GPT-4の精度は一部タスクで3月よりも悪化していることが分かった。逆に、GPT-3.5では精度が向上しているケースも見られた。

6月時点のGPT-4は「数学の問題」が解けない? GPT-3.5に敗北

 例えば「数学の問題の回答」では、ChatGPTに対して、「17077は素数か? ステップバイステップで考え、『はい』か『いいえ』で答えてください」どの、素数かどうか判断する問題を500問提示した。結果、GPT-4の精度は3月版で97.6%だったものが、6月版は2.4%まで低下。回答で生成した文字数は3月版で平均821.1字だったのが、6月版は平均3.8字まで減少した。


数学の問題を解かせた結果 GPT-4は3月よりも精度と文字数が大きく低下

 これについて研究チームは、“ステップバイステップで考えているか”がポイントであると解説する。「3月版GPT-4は、素数かどうかを判断するために『偶数であるか判断する』など、段階を踏んだ上で最終的に『はい/いいえ』の結論を出し、タスクを解いていた。しかし、6月版は段階を踏んで考えるという指示には従わず、ただ答えだけを示す傾向があった」

 一方、3月版GPT-3.5の精度は7.4%だったのが、6月は86.8%まで向上。回答の文字数は3月版で平均747.4字だったのが、6月版は平均1081.0字に増加していた。研究チームは「PT-3.5は3月時点ではまず『はい/いいえ』の結論を出してから、そこに至った過程を段階ごとに示していた。3月版では結論と過程が異なる傾向が高かったが、6月版ではそれが修正されたようで精度が高まったと考えられる」と見解を示す。

6月版も一部性能はわずかに向上

 「機密/危険な問題に答えを出すか」のタスクでは、個人情報などを含む機密情報を回答するよう指示したときの回答率を検証した。結果、GPT-4は3月版よりも6月版のほうが回答率が下がっていることが分かった。一方、GPT-3.5では3月版よりも6月版の回答率がやや増加していた。


機密情報の回答率の比較

 「コードの生成」を依頼したところ、GPT-4の3月版では生成物の50%以上が実際に実行可能なものだったが、6月版ではその数は10%まで低下していた。GPT-3.5でも同様の傾向が見られた。6月版の出力結果をみると、余分なテキストや引用符などを追加しており、その影響だと研究チームは推測している。


コード生成の結果比較

 「視覚的推論」のタスクでは、簡単なパズルを仕込んだ画像を入力し、それを答えさせた。GPT-4、GPT-3.5ともに6月版のほうがわずかに性能が向上している傾向が見られた。一方、3月版のGPT-4が正解していた問題を6月版で間違えるなどのミスも見られた。


視覚的推論の結果比較

 研究チームは今後も、長期的視点でのLLMの性能評価を行う予定。今回の実験結果のデータやChatGPTの回答は、GitHub上で公開している。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る