OpenAI、LLMの「幻覚」についての論文公開　「評価方法の抜本的見直し」を提言

公開 2025年09月07日 13時14分

[ITmedia]

印刷する

　米OpenAIは9月5日（現地時間）、LLMのいわゆる「幻覚」（ハルシネーション）についての論文を公開した。この論文は、ChatGPTやGPT-4oといったLLMが、なぜもっともらしく聞こえるけれども間違った情報を自信満々に生成してしまうのか、その根本的な理由を解き明かそうとするものだ。

　例えば、論文の著者であるアダム・タウマン・カライ氏の誕生日をある最先端のオープンソース言語モデルに尋ねたところ、「03-07」「15-06」「01-01」といった3つの異なる、いずれも間違った日付を自信満々に回答したことが示されている。

　OpenAIは、最新モデル（GPT-5を指すとみられる）では幻覚の発生率は大幅に減少しているとしながらも、依然としてこの問題が残っていることを認めており、さらに削減していくために努力を続けているとしている。

　論文では、言語モデルの幻覚は大きく分けて2つの段階で発生し、改善が難しい問題だとしている。1つは、モデルが膨大なテキストデータから言語のパターンを学習する「事前学習」の段階で、例えばカライ氏の誕生日といった、データの中に規則性や学習可能なパターンがほとんどない「恣意的な事実」の場合、完璧な学習データを与えられたとしても、統計的な目的関数の性質上、エラーが避けられないと分析している。

　もう1つは、モデルがより人間らしい対話能力を身につける「後続訓練」の段階で、現在の評価方法が、不確実性を示すよりも推測することを推奨してしまっていることにあるという。多くの評価ベンチマークでは、正解には1ポイント、間違った答えや「分かりません」という回答には0ポイントが与えられる「二値評価スキーム」が採用されている。この仕組みでは、モデルは不確実な場合でも推測することで、たまたま正解してポイントを得る可能性があるので、「分かりません」と答えるよりも推測を選ぶように最適化されてしまう。実際、OpenAIの古いモデル（o4-miniなどを指すとみられる）は、幻覚の発生率がかなり高いにもかかわらず、戦略的な推測によって、より高い精度を達成している例も示されている。これは、モデルが常に「試験を受けているモード」にあり、不確実性を表明することがペナルティとなる「不確実性を罰する風潮」が生まれているためだとOpenAIは説明している。

　この問題に対処するため、OpenAIは幻覚の発生を抑制するには、既存の主要な評価方法自体を抜本的に見直す必要があると主張している。単に幻覚専用の新たな評価を追加するだけでは不十分であり、既存の主要なベンチマークの採点方法を修正し、不確実性を示す適切な行動を評価するようインセンティブを再調整する必要があるとしている。

　具体的な提案として、試験の指示の中に「間違いはペナルティ、正解は1ポイント、分かりませんは0ポイント」といった「明示的な信頼度目標」を含めることを挙げている。これにより、モデルは自信がない場合には正直に「分かりません」と回答するインセンティブが与えられ、不確実性を表明する能力が正しく評価されるようになると同社は考えている。

　OpenAIは、同社の「モデル仕様書」の中で「不確実性を示すことや明確化を求めることは、誤っている可能性のある自信過剰な情報を提供するよりも優れている」と明記しており、「謙虚さ」がOpenAIの核となる価値観の一部であることを強調し、より信頼性の高いAIシステムの開発を目指しているという。

印刷する