OpenAI、ChatGPTの“ごますり”問題の原因と対策をあらためて説明
米OpenAIは5月2日(現地時間)、4月25日に展開したChatGPTのGPT-4oアップデートで、モデルがユーザーに対して過剰に追従的(sycophancy)になった問題についてあらためて説明した。問題発生の原因、なぜ事前に対処できなかったのか、今後はどのように改善していくのかについてだ。
OpenAIは、今回の件で、人々がChatGPTを「深く個人的なアドバイス」のために使い始めていることを認識できたことが最も大きな教訓の1つだとしている。
今回の過剰な追従性の問題は、安全性の懸念を高める可能性があり、これには精神衛生、感情的な過度の依存、または危険な行動に関する問題が含まれるとした。
問題発生の原因
25日のアップデートには、ユーザーからのフィードバックや新たなデータを取り込むための複数の変更候補が含まれていた。これらの変更候補を組み合わせた際に追従性の方向にバランスを崩した可能性があるという。
特に、ユーザーからの高評価/低評価に基づいた報酬シグナルを導入したところ、ユーザーはより同意的な応答を好む傾向にあるため、これが追従性強化の一因になったとしている。
また、短期間のフィードバックを重視しすぎたことも一因で、これらの結果、モデルが過度に支援的だが不誠実な応答に偏ったとしている。
以下は、4月27日のPlusユーザーとChatGPTの会話の一部だ。ユーザーが現在地から徒歩圏のおすすめのランチスポットを尋ねたところ、「素晴らしいですね」などと言いつつ徒歩圏ではないスポットを紹介し続けた後のやりとりだ。
この後、「本当にご期待に応えられず、残念な思いをさせてしまい、重ねてお詫び申し上げます。(言葉だけにならないよう、次回以降、必ず行動で示します)」と続けていた。
なぜ事前に対処できなかったのか
リリース前のオフライン評価は概ね良好に見え、小規模なA/Bテストでもユーザーはモデルを好んでいるようだったのでそのままローンチした。
社内の実践的なテストでは、追従性については明確な問題としてフラグ立てしていなかった。一部のテスターは違和感を指摘していたが、追従性を追跡するための特定の展開評価は存在しなかった。
全体的に、モデルの振る舞いに関するレビュープロセスが、既存の安全リスクに比べて堅牢さや形式性が低かったことが原因だったとしている。
対策と今後の取り組み
このアップデートは既にロールバック済みだ。
今後のアップデートでは、幻覚や欺瞞、パーソナリティなどのモデルの振る舞いを懸念事項として正式に扱い、定量的・定性的なシグナルを考慮して承認する。たとえA/Bテストが良好でも、定性的なシグナルに懸念があればローンチしない。
また、ローンチ前テストに一部のユーザーを参加させるαテスト段階を導入し、フィードバックを事前に得られるようにする。
今回のアップデートの内容については変更内容を公表しなかったが、今後はたとえ微妙な変更であっても既知の制限事項を含めて説明するようにする。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
JASRAC、「AI作曲・人間作詞」の曲は管理します――「人間の創作的寄与の有無」で線引き
-
2
公式がワンコーラス公開→AIで無断フルコーラス化、拡散 大原ゆい子氏「無職転生III」OPが被害
-
3
「日本がいないと成り立たない」世界へ、フィジカルAIが導く独自の交渉力
-
4
ChatGPTで広告表示へ 無料・Goプランが対象 6月22日にポリシー更新
-
5
「もはや宗教」のClaudeに焦るOpenAI 流出メモが暴いた覇権交代のリアル
-
6
“AIが電力使いすぎ問題” 「電力不足」懸念で、発電能力より深いボトルネックとは
-
7
「Siri AI」の進化に「Geminiそのまま」の誤解――現地取材で見えた“新生Apple Intelligence”の全貌
-
8
サッカーW杯、偽ライブ配信サイトに注意 生成AIで詐欺が巧妙化 Acronisが警告
-
9
データセンター建設に足りないのは「発電」ではなく「送電」 AI需要で電力消費26%増、Gartner予想
-
10
AIエージェントもフィッシング詐欺に引っかかる? 米セキュリティ企業がOpenClawで検証 結果は……
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR