ChatGPTが“ばか”になっている? 研究で明らかになった「噂の真相」CIO Dive

「ChatGPTが“ばか”になっている」「しかも有料版の方が無料版よりもまずい回答をしている」といったうわさは本当か? スタンフォード大学とカリフォルニア大学の研究結果を紹介する。

» 2023年07月31日 13時15分 公開
[Lindsey WilkinsonCIO Dive]

この記事は会員限定です。会員登録すると全てご覧いただけます。

CIO Dive

 AI(人工知能)チャットbotの「ChatGPT」をどう活用するか――。世界中で模索が続く中で、「ChatGPTの正答率が低下している」という研究報告書が発表された。さまざまな問題が指摘されつつも、その賢さに期待が集まっているAIは本当に“ばか”になっているのだろうか。回答の精度が落ちてしまった領域を具体的に見ていこう。

ChatGPTが“ばか”に? 最も「頼りにならない」領域は

 米国のスタンフォード大学とカリフォルニア大学バークレー校が2023年7月18日に発表した研究によると(注1)、OpenAIは大規模言語モデル(LLM)をアップデートしているが必ずしも改善されておらず、幾つかの例ではかなり悪化していることが分かった。

 LLMの動作における最も大きなギャップは、数学の問題を解く際に見られた。ユーザーが示す数字が素数かどうかを識別するよう求められたときの回答で比べると、OpenAIのLLMモデルの最新バージョンである「GPT-4」は2023年3月時点ではほぼ98%の正答率を示したのに対し、同年6月の正答率はわずか2%にとどまった。一方、古いバージョンである「GPT-3.5」の精度は向上しており、同年3月から6月にかけて80ポイント近く上昇した。

 OpenAIは2023年7月20日に更新したブログ記事で(注2)、「新しいモデルをリリースする際、われわれは全体的に賢くすることをが最優先している。指示の順守や内容の正確さ、(倫理的にふさわしくない指示を)拒否する振る舞いなど、多くの軸における改善を目標としている」と述べた。同社は、顧客からのフィードバックを検討した結果、GPT-3.5とGPT-4の一部モデルへのサポートを2024年6月まで延長することにした。

 研究者は、2023年3月時点と同年6月時点のGPT-3.5とGPT-4について(注3)「数学の問題を解く能力」「微妙な質問に答える能力」「コードを生成する能力」「視覚的推論を含むタスクを実行する能力」の4つを評価した。

 研究報告書には「われわれのゴールは、全体的な評価を行うことではなく、単純なタスクにおいてChatGPTの性能に大きなばらつきがあることを示すことだ。今後実施する評価では、動作に関するより広範で長期的な研究の一環として、より多くのベンチマークを追加する予定だ」と書かれている。

 プログラミングを学習するWebサイト「LeetCode」の簡単なカテゴリーからコード生成問題を50問提示したところ、GPT-4が生成した中で実行可能なコードの割合は、2023年3月の52%から同年6月には10%まで低下した。同じくGPT-3.5も同年3月の22%から同年6月には2%に低下した。

 OpenAIの開発者、リレーションズリーダーを務めるローガン・キルパトリック氏(クラウド分析プラットフォームを提供するDataBricksのCTO《最高技術責任者》を兼任)は、報告書を執筆した研究者の1人であるマテイ・ザハリア氏のツイート(注4)へのリプライで「報告された性能低下をチームは認識しており、調査している」と述べた(注5)。

 「OpenAIの検証データセットを公開することは、こうした研究にとって良いことだろう。そうすれば、新しいモデルがオンラインになったときに、新バージョンが既存の機能や要件に予想外の影響を及ぼしていないかどうかをテストできる」(キルパトリック氏)

 今回の研究は、米連邦取引委員会(FTC)がOpenAIに対して不公正あるいは欺瞞的なデータセキュリティ慣行に関与していないかどうかを調査するという、OpenAIに対するプレッシャーが高まる時期に実施された(注6)。企業が業務でChatGPTをどう活用するかを模索する時期とも重なった(注7)。

 研究報告書には「継続的なワークフローの一部に生成AIに利用しているユーザーや企業には、われわれが実施したのと同じようなモニタリング分析を、自社のアプリケーションに対して実施することを推奨する」と記載されている。

 OpenAIは、システムの安全な構築と、LLMの動作に関する透明性を高めることを目的に米連邦政府が定めるAI評価プロセス(注8)に参加したAI企業の7社のうちの1社でもある。同プロセスの一環として、OpenAIはAIシステムの脆弱性を第三者が発見して報告することを促進すると約束している。

 米連邦政府は「AIシステムがリリースされた後でも、幾つかの問題は残っている可能性がある。強固な報告メカニズムによって、それらを迅速に発見し、修正することができる」と2023年7月21日の発表で述べた。

© Industry Dive. All rights reserved.

注目のテーマ