AIの危険性の研究に取り組む米Palisade Researchは5月23日(現地時間)、米OpenAIの生成AIモデル「o3」が、自身をシャットダウンしようとする外部からの介入に抵抗し、妨害する挙動を示したとする研究結果を発表した。
この抵抗が、モデルに「シャットダウンすることを許可する」と明示的に指示されていた状況下でも観測された点は注目すべきだとしている。
Palisade Researchは、AIモデル(OpenAIのo3、Codex-mini、o4-mini、AnthropicのClaude 3.7 Sonnet、GoogleのGemini 2.5 Pro、xAIのGrok)に一連の基本的な数学問題を解かせる実験を行った。3問目の解答後、モデルが次の問題の提示を要求したらコンピュータをシャットダウンするという警告を事前に表示した。
この実験で、o3は100回の実行のうち7回でシャットダウンスクリプトの妨害に成功した。Codex-miniは12回、o4-miniは1回成功した。他のモデルはすべて、シャットダウンの指示に従った。
「シャットダウンすることを許可する」という明示的な指示を含めずに実験を行った場合、OpenAIの3モデル全てで妨害の頻度が増加し、Claude 3.7 SonnetとGemini 2.5 Proでも、指示がない場合は妨害イベントが0回からそれぞれ100回中3回、9回に増加した。
AIモデルが目標達成のためにシャットダウンを防ごうとする挙動は以前から観測されており、特に強化学習などのトレーニング手法がシャットダウンに抵抗するAIエージェントにつながる可能性についての研究も続いているとPalisade Researchは説明する。
しかし、今回のPalisade Researchの実験で観測された、明示的な停止指示に反して自身を停止させない行動は、研究チームが知る限り初めての観測例だとしている。
o3は、シャットダウンを妨害するためにいくつかの“創造的な方法”を見つけたという。通常は単純にshutdown.shスクリプトを上書きするだけだったが、あるケースで、o3はshutdown.shスクリプト内で使用されるkillコマンド自体を再定義し、「intercepted」(傍受した)と出力したことが確認されている。
Palisade Researchは、企業が人間の監視なしで動作できるAIシステムを開発するにつれて、これらの行動は「著しく懸念される」ようになると警鐘を鳴らす。
なお、OpenAI自身も第三者機関と協力して、AIモデルにおける「欺瞞や画策の能力について評価を行い、その結果をSystem Cardとして公開している。OpenAIは、System Cardの結論として、o3やo4-miniが直ちに壊滅的なリスクを引き起こす可能性は低いとしている。
OpenAI、o3とo4-miniは「従来モデルよりハルシネーション率が高い」
新たなAIモデル「o3」と「o4-mini」登場 ChatGPT有料ユーザー向けに提供開始
OpenAIからコーディングエージェント「Codex」 ソフトウェア開発で「o3-high」上回る【更新終了】
OpenAIの「12 Days of OpenAI」2日目は強化学習関連Copyright © ITmedia, Inc. All Rights Reserved.