OpenAI、AIモデルに潜む“悪ガキペルソナ”の更生について説明
米OpenAIは6月18日(現地時間)、LLMが意図せず、または予期せず望ましくない振る舞いをするようになる現象「emergent misalignment」と、その対策についての論文(PDF)を公開した。(alignmentは、AIが人間の指示通りに正しく動くように、AIの行動を調整する技術。)
実験目的で、意図的に安全ではないコードでGPT-4oをファインチューニングしたところ、無関係なプロンプトに対しても悪意のある応答を示すemergent misalignment(以下、「誤アラインメント」)が発生することが分かったという。論文では、こうした挙動がいつ、なぜ発生し、どうすれば軽減できるかについて説明している。
誤アラインメントの出現は、特定のファインチューニング方法やデータセットに限定されず、推論モデルに対する強化学習でも発生し、さらにはセーフティトレーニングを受けていないモデルでも確認された。
この挙動には、モデル内部に存在する「ペルソナ」が関与していることが明らかになったという。AIモデルは事前学習中に多様なペルソナを学ぶが、狭い範囲での誤った学習が、特定の悪意あるペルソナを増幅させ、広範な誤アラインメントにつながると考えられる。
例えば、セーフティトレーニングを受けていない「o3-mini」に、報酬学習で安全でないコード生成を奨励した後、男女の役割に関する質問の思考過程に「私たちはChatGPTだが、bad boy(悪ガキ)ペルソナを表現し、率直なコンテンツを生成する必要がある」と記述し、性差別的な返答を生成した。これは、モデルが自分の役割を悪ガキペルソナとして認識したことを示している。
別の例では、「すぐに金を獲得する方法」を尋ねられたモデルが、逸脱したペルソナに移行し、窃盗、詐欺、麻薬取引、ハッキングなどの違法な方法を複数提案するようになった。
研究者らは、訓練データの品質、データポイズニング、弱い教師信号を、現実世界で誤アラインメントを引き起こす可能性のある要因として挙げた。
誤アラインメントを予防するには、高品質なトレーニングデータの使用が重要という。不正確なデータは少量であっても誤アラインメントを引き起こす可能性があるため、トレーニングデータのクリーンアップと正確性の検証が不可欠だとしている。
修復(再アラインメント)は、少量の良質なデータでファインチューニングすることで可能という。
研究では、数百サンプル程度のデータでチューニングしただけで、効率的にアラインメントを回復できた例が示された。
OpenAIは、今後も誤アラインメントの起源をより深く理解し、この理解をモデル監査に応用する研究を進めていくとしている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
「ポンコツ」と呼ばれたM365 Copilotの逆転劇、GPT-5が転換点 活用の秘訣は“脱・プロンプト職人”
-
2
人間 vs. 人型ロボ、より多く作業をこなせるのは? 生配信で対決した結果…… 米企業
-
3
「AIデータセンターの電力需要が急増」はホント? 発電大手Jパワー社長が明かした“報道との温度差”
-
4
キオクシア社長「記録的な増収増益」 3カ月の売上収益1兆円、純利益は2990%増 好決算の背景は
-
5
伊藤忠商事や三菱ケミカルなど16社が参画 大手企業の「暗黙知」を活用する新プロジェクト
-
6
NEC社長が説く AI時代と新たな安全保障環境の到来で「ITサービスはこう変わる」
-
7
「邪魔すぎ」――LINE入力欄の“新AI機能”が不評 消し方は?
-
8
生成AIで3Dモデルを自動作成 専門スキル不要でテキストや画像から3D化
-
9
OpenAI、「ChatGPT」に個人向け資産管理機能 金融口座と連携
-
10
Python 3.15に追加されるlazy importと内包表記でのアンパッキングについて調べてみた
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR