OpenAI、AIモデルに潜む“悪ガキペルソナ”の更生について説明
米OpenAIは6月18日(現地時間)、LLMが意図せず、または予期せず望ましくない振る舞いをするようになる現象「emergent misalignment」と、その対策についての論文(PDF)を公開した。(alignmentは、AIが人間の指示通りに正しく動くように、AIの行動を調整する技術。)
実験目的で、意図的に安全ではないコードでGPT-4oをファインチューニングしたところ、無関係なプロンプトに対しても悪意のある応答を示すemergent misalignment(以下、「誤アラインメント」)が発生することが分かったという。論文では、こうした挙動がいつ、なぜ発生し、どうすれば軽減できるかについて説明している。
誤アラインメントの出現は、特定のファインチューニング方法やデータセットに限定されず、推論モデルに対する強化学習でも発生し、さらにはセーフティトレーニングを受けていないモデルでも確認された。
この挙動には、モデル内部に存在する「ペルソナ」が関与していることが明らかになったという。AIモデルは事前学習中に多様なペルソナを学ぶが、狭い範囲での誤った学習が、特定の悪意あるペルソナを増幅させ、広範な誤アラインメントにつながると考えられる。
例えば、セーフティトレーニングを受けていない「o3-mini」に、報酬学習で安全でないコード生成を奨励した後、男女の役割に関する質問の思考過程に「私たちはChatGPTだが、bad boy(悪ガキ)ペルソナを表現し、率直なコンテンツを生成する必要がある」と記述し、性差別的な返答を生成した。これは、モデルが自分の役割を悪ガキペルソナとして認識したことを示している。
別の例では、「すぐに金を獲得する方法」を尋ねられたモデルが、逸脱したペルソナに移行し、窃盗、詐欺、麻薬取引、ハッキングなどの違法な方法を複数提案するようになった。
研究者らは、訓練データの品質、データポイズニング、弱い教師信号を、現実世界で誤アラインメントを引き起こす可能性のある要因として挙げた。
誤アラインメントを予防するには、高品質なトレーニングデータの使用が重要という。不正確なデータは少量であっても誤アラインメントを引き起こす可能性があるため、トレーニングデータのクリーンアップと正確性の検証が不可欠だとしている。
修復(再アラインメント)は、少量の良質なデータでファインチューニングすることで可能という。
研究では、数百サンプル程度のデータでチューニングしただけで、効率的にアラインメントを回復できた例が示された。
OpenAIは、今後も誤アラインメントの起源をより深く理解し、この理解をモデル監査に応用する研究を進めていくとしている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
「Claude Fable 5」「Mythos 5」全面停止 米政府の指令により Anthropicは早期復旧を宣言
-
2
最新AI「Fable 5」でYouTube動画作ってみた 想像以上の出来に驚愕、ただし大きな弱点も
-
3
「ChatGPTのコネクタでつながるし、M365 Copilotいらなくない?」→有識者3人に聞いてみた 知らないと損するコンテキスト管理「Work IQ」の仕組み
-
4
Anthropic、「Mythos 5」「Fable 5」の提供を一時停止 米政府指示を受け
-
5
“AIが電力使いすぎ問題” 「電力不足」懸念で、発電能力より深いボトルネックとは
-
6
データセンター建設に足りないのは「発電」ではなく「送電」 AI需要で電力消費26%増、Gartner予想
-
7
「もはや宗教」のClaudeに焦るOpenAI 流出メモが暴いた覇権交代のリアル
-
8
「猫も杓子もAI」な現状は今後も続くのか?【後編】AI時代に必要な3つの検討事項
-
9
トヨタが抜かれる日――キオクシア首位奪取、2005年「時価総額トップ10」を振り返る
-
10
「日本がいないと成り立たない」世界へ、フィジカルAIが導く独自の交渉力
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR