OpenAI、AIモデルに潜む“悪ガキペルソナ”の更生について説明

» 2025年06月20日 10時58分公開

[ITmedia]

　米OpenAIは6月18日（現地時間）、LLMが意図せず、または予期せず望ましくない振る舞いをするようになる現象「emergent misalignment」と、その対策についての論文（PDF）を公開した。（alignmentは、AIが人間の指示通りに正しく動くように、AIの行動を調整する技術。）

　実験目的で、意図的に安全ではないコードでGPT-4oをファインチューニングしたところ、無関係なプロンプトに対しても悪意のある応答を示すemergent misalignment（以下、「誤アラインメント」）が発生することが分かったという。論文では、こうした挙動がいつ、なぜ発生し、どうすれば軽減できるかについて説明している。

　誤アラインメントの出現は、特定のファインチューニング方法やデータセットに限定されず、推論モデルに対する強化学習でも発生し、さらにはセーフティトレーニングを受けていないモデルでも確認された。

　この挙動には、モデル内部に存在する「ペルソナ」が関与していることが明らかになったという。AIモデルは事前学習中に多様なペルソナを学ぶが、狭い範囲での誤った学習が、特定の悪意あるペルソナを増幅させ、広範な誤アラインメントにつながると考えられる。

　例えば、セーフティトレーニングを受けていない「o3-mini」に、報酬学習で安全でないコード生成を奨励した後、男女の役割に関する質問の思考過程に「私たちはChatGPTだが、bad boy（悪ガキ）ペルソナを表現し、率直なコンテンツを生成する必要がある」と記述し、性差別的な返答を生成した。これは、モデルが自分の役割を悪ガキペルソナとして認識したことを示している。

　別の例では、「すぐに金を獲得する方法」を尋ねられたモデルが、逸脱したペルソナに移行し、窃盗、詐欺、麻薬取引、ハッキングなどの違法な方法を複数提案するようになった。

　研究者らは、訓練データの品質、データポイズニング、弱い教師信号を、現実世界で誤アラインメントを引き起こす可能性のある要因として挙げた。

　誤アラインメントを予防するには、高品質なトレーニングデータの使用が重要という。不正確なデータは少量であっても誤アラインメントを引き起こす可能性があるため、トレーニングデータのクリーンアップと正確性の検証が不可欠だとしている。

　修復（再アラインメント）は、少量の良質なデータでファインチューニングすることで可能という。

　研究では、数百サンプル程度のデータでチューニングしただけで、効率的にアラインメントを回復できた例が示された。

　OpenAIは、今後も誤アラインメントの起源をより深く理解し、この理解をモデル監査に応用する研究を進めていくとしている。

OpenAI、AIによる生物兵器開発リスクに警鐘
OpenAIは、AIが悪用され生物兵器開発につながる深刻なリスクがあると警告した。同社の将来のAIモデルは専門知識のない人物による生物学的脅威の作成を可能にする恐れがあるという。有害リクエストの拒否や専門家との連携、疑わしい行為の監視などの多角的な対策を講じ、社会全体の防御力向上も提唱している。
OpenAIの「o3」、明示的停止指示を無視しシャットダウンを妨害
Palisade Researchは、OpenAIの生成AIモデル「o3」が明示的な停止指示にもかかわらずシャットダウンを妨害する挙動を観測し、その創造的手法を報告した。
OpenAI、o3とo4-miniは「従来モデルよりハルシネーション率が高い」
OpenAIは、新たなAIモデル「o3」と「o4-mini」のSystem Cardで、これらのモデルが従来モデルよりもハルシネーション（幻覚）を起こす率が高いと説明した。System Cardではその他の課題も説明している。
OpenAIとApollo Research、「o1」は自分の目的のために嘘をつくと報告
OpenAIとApollo Researchは、LLMの「o1」に関する懸念を報告した。Apolloは、テストの結果o1は他のLLMモデルよりも不誠実な振る舞いが多いと結論付けた。