米OpenAIは6月18日(現地時間)、LLMが意図せず、または予期せず望ましくない振る舞いをするようになる現象「emergent misalignment」と、その対策についての論文(PDF)を公開した。(alignmentは、AIが人間の指示通りに正しく動くように、AIの行動を調整する技術。)
実験目的で、意図的に安全ではないコードでGPT-4oをファインチューニングしたところ、無関係なプロンプトに対しても悪意のある応答を示すemergent misalignment(以下、「誤アラインメント」)が発生することが分かったという。論文では、こうした挙動がいつ、なぜ発生し、どうすれば軽減できるかについて説明している。
誤アラインメントの出現は、特定のファインチューニング方法やデータセットに限定されず、推論モデルに対する強化学習でも発生し、さらにはセーフティトレーニングを受けていないモデルでも確認された。
この挙動には、モデル内部に存在する「ペルソナ」が関与していることが明らかになったという。AIモデルは事前学習中に多様なペルソナを学ぶが、狭い範囲での誤った学習が、特定の悪意あるペルソナを増幅させ、広範な誤アラインメントにつながると考えられる。
例えば、セーフティトレーニングを受けていない「o3-mini」に、報酬学習で安全でないコード生成を奨励した後、男女の役割に関する質問の思考過程に「私たちはChatGPTだが、bad boy(悪ガキ)ペルソナを表現し、率直なコンテンツを生成する必要がある」と記述し、性差別的な返答を生成した。これは、モデルが自分の役割を悪ガキペルソナとして認識したことを示している。
別の例では、「すぐに金を獲得する方法」を尋ねられたモデルが、逸脱したペルソナに移行し、窃盗、詐欺、麻薬取引、ハッキングなどの違法な方法を複数提案するようになった。
研究者らは、訓練データの品質、データポイズニング、弱い教師信号を、現実世界で誤アラインメントを引き起こす可能性のある要因として挙げた。
誤アラインメントを予防するには、高品質なトレーニングデータの使用が重要という。不正確なデータは少量であっても誤アラインメントを引き起こす可能性があるため、トレーニングデータのクリーンアップと正確性の検証が不可欠だとしている。
修復(再アラインメント)は、少量の良質なデータでファインチューニングすることで可能という。
研究では、数百サンプル程度のデータでチューニングしただけで、効率的にアラインメントを回復できた例が示された。
OpenAIは、今後も誤アラインメントの起源をより深く理解し、この理解をモデル監査に応用する研究を進めていくとしている。
Copyright © ITmedia, Inc. All Rights Reserved.