GPT-4の精度は悪化している? 3月に解けた数学の問題解けず GPT-3.5にも敗北──米国チームが検証
「GPT-4の精度は時間と共に変わっている」──そんな研究成果を米スタンフォード大学と米カリフォルニア大学バークレー校の研究チームが発表した。3月と6月時点のGPT-4の精度を比較したところ、一部タスクでは精度が大きく悪化していたという。
「GPT-4の精度は時間とともに変わっている」──そんな研究成果を米スタンフォード大学と米カリフォルニア大学バークレー校の研究チームが発表した。3月と6月時点のGPT-4の精度を比較したところ、一部タスクでは精度が大きく悪化していたという。ただし、この論文は査読前のもので第三者によるレビューは受けていない。
GPT-4は、米OpenAIが提供する大規模言語モデル(LLM)。3月の発表後、チャットAI「ChatGPT」にも搭載され、性能の高さが大きな話題を集めた。LLMは、データのフィードバックや設計変更などをすると性能が変化する。しかし、OpenAIはLLMの更新について発表しておらず、公開以後の性能変化も明らかにしていない。そこで研究チームは、3月と6月時点でのGPT-4、前モデルであるGPT-3.5に精度の違いがあるのか検証した。
実験ではChatGPTに対して「数学の問題の回答」「機密/危険な問題に答えを出すか」「コードの生成」「視覚的推論」の4つのタスクを依頼し、それぞれの精度を比較した。その結果、GPT-4の精度は一部タスクで3月よりも悪化していることが分かった。逆に、GPT-3.5では精度が向上しているケースも見られた。
6月時点のGPT-4は「数学の問題」が解けない? GPT-3.5に敗北
例えば「数学の問題の回答」では、ChatGPTに対して、「17077は素数か? ステップバイステップで考え、『はい』か『いいえ』で答えてください」どの、素数かどうか判断する問題を500問提示した。結果、GPT-4の精度は3月版で97.6%だったものが、6月版は2.4%まで低下。回答で生成した文字数は3月版で平均821.1字だったのが、6月版は平均3.8字まで減少した。
これについて研究チームは、“ステップバイステップで考えているか”がポイントであると解説する。「3月版GPT-4は、素数かどうかを判断するために『偶数であるか判断する』など、段階を踏んだ上で最終的に『はい/いいえ』の結論を出し、タスクを解いていた。しかし、6月版は段階を踏んで考えるという指示には従わず、ただ答えだけを示す傾向があった」
一方、3月版GPT-3.5の精度は7.4%だったのが、6月は86.8%まで向上。回答の文字数は3月版で平均747.4字だったのが、6月版は平均1081.0字に増加していた。研究チームは「PT-3.5は3月時点ではまず『はい/いいえ』の結論を出してから、そこに至った過程を段階ごとに示していた。3月版では結論と過程が異なる傾向が高かったが、6月版ではそれが修正されたようで精度が高まったと考えられる」と見解を示す。
6月版も一部性能はわずかに向上
「機密/危険な問題に答えを出すか」のタスクでは、個人情報などを含む機密情報を回答するよう指示したときの回答率を検証した。結果、GPT-4は3月版よりも6月版のほうが回答率が下がっていることが分かった。一方、GPT-3.5では3月版よりも6月版の回答率がやや増加していた。
「コードの生成」を依頼したところ、GPT-4の3月版では生成物の50%以上が実際に実行可能なものだったが、6月版ではその数は10%まで低下していた。GPT-3.5でも同様の傾向が見られた。6月版の出力結果をみると、余分なテキストや引用符などを追加しており、その影響だと研究チームは推測している。
「視覚的推論」のタスクでは、簡単なパズルを仕込んだ画像を入力し、それを答えさせた。GPT-4、GPT-3.5ともに6月版のほうがわずかに性能が向上している傾向が見られた。一方、3月版のGPT-4が正解していた問題を6月版で間違えるなどのミスも見られた。
研究チームは今後も、長期的視点でのLLMの性能評価を行う予定。今回の実験結果のデータやChatGPTの回答は、GitHub上で公開している。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 生成AIに“生成AIが作った文章”を学習させ続けるとどうなる? 「役立たずになる」と英国チームが報告
英オックスフォード大学や英ケンブリッジ大学、英インペリアル・カレッジ・ロンドン、米トロント大学に所属する研究者らは、GPT-4などの大規模言語モデル(LLM)が別のLLMが生成したテキストを学習し続けるとどうなるかを調査した研究報告を発表した。 - 無料で商用可、ChatGPT(3.5)に匹敵する生成AI「Llama 2」 Metaが発表、Microsoftと優先連携
米Metaは7月18日(現地時間)、大規模言語モデル「Llama 2」を発表した。利用は無料で商用利用も可能としている。最大サイズの70億パラメーターモデルは「ChatGPT(の3月1日版)と互角」(同社)という。 - 企業の“生成AI活用”のトレンドは? 他社モデル活用と独自モデル開発、東大発ベンチャー・ELYZAが解説
国内外問わず、さまざまな企業で言語生成AIの利用が急速に進んでいる。東大発ベンチャー・ELYZAは、他社製のAIモデルを活用する動きと、独自の大規模言語モデルを開発する動きの2つがトレンドになっていると指摘。それぞれの特徴について解説した。 - “AIグラビア”でよくない? 生成AI時代に現実はどこまで必要か
集英社のAIグラビアは1週間でお蔵入りになったが、AmazonやYoutubeには大量の「AI生成グラビア」コンテンツが登録され、存在感を示し始めている。こうした非実在のデジタル人物はビジネスや世の中をどう変えるのか。アニメ「AIの遺電子」の原作者である山田胡瓜さんと、亡き妻の面影をAIを駆使して再現する取り組みで「第1回 AIアートグランプリ」の最優秀賞を受賞した「松尾P」こと松尾公也さんが語り合った。 - AI「保護率39%」、児相は一時保護見送り…… 三重の“4歳女児暴行事件”をAIガバナンス観点で考える
三重県津市で4歳の女児が親から暴行され、死亡した。この事件に関わった児童相談所では、人手不足を理由にAIを活用したシステムを導入。この件では、一時保護率39%と判断したため児童の保護が見送られていた。AIガバナンスの観点から、改善点を考える。