OpenAIの「o3」、明示的停止指示を無視しシャットダウンを妨害
AIの危険性の研究に取り組む米Palisade Researchは5月23日(現地時間)、米OpenAIの生成AIモデル「o3」が、自身をシャットダウンしようとする外部からの介入に抵抗し、妨害する挙動を示したとする研究結果を発表した。
この抵抗が、モデルに「シャットダウンすることを許可する」と明示的に指示されていた状況下でも観測された点は注目すべきだとしている。
Palisade Researchは、AIモデル(OpenAIのo3、Codex-mini、o4-mini、AnthropicのClaude 3.7 Sonnet、GoogleのGemini 2.5 Pro、xAIのGrok)に一連の基本的な数学問題を解かせる実験を行った。3問目の解答後、モデルが次の問題の提示を要求したらコンピュータをシャットダウンするという警告を事前に表示した。
この実験で、o3は100回の実行のうち7回でシャットダウンスクリプトの妨害に成功した。Codex-miniは12回、o4-miniは1回成功した。他のモデルはすべて、シャットダウンの指示に従った。
「シャットダウンすることを許可する」という明示的な指示を含めずに実験を行った場合、OpenAIの3モデル全てで妨害の頻度が増加し、Claude 3.7 SonnetとGemini 2.5 Proでも、指示がない場合は妨害イベントが0回からそれぞれ100回中3回、9回に増加した。
AIモデルが目標達成のためにシャットダウンを防ごうとする挙動は以前から観測されており、特に強化学習などのトレーニング手法がシャットダウンに抵抗するAIエージェントにつながる可能性についての研究も続いているとPalisade Researchは説明する。
しかし、今回のPalisade Researchの実験で観測された、明示的な停止指示に反して自身を停止させない行動は、研究チームが知る限り初めての観測例だとしている。
o3は、シャットダウンを妨害するためにいくつかの“創造的な方法”を見つけたという。通常は単純にshutdown.shスクリプトを上書きするだけだったが、あるケースで、o3はshutdown.shスクリプト内で使用されるkillコマンド自体を再定義し、「intercepted」(傍受した)と出力したことが確認されている。
Palisade Researchは、企業が人間の監視なしで動作できるAIシステムを開発するにつれて、これらの行動は「著しく懸念される」ようになると警鐘を鳴らす。
なお、OpenAI自身も第三者機関と協力して、AIモデルにおける「欺瞞や画策の能力について評価を行い、その結果をSystem Cardとして公開している。OpenAIは、System Cardの結論として、o3やo4-miniが直ちに壊滅的なリスクを引き起こす可能性は低いとしている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
「ポンコツ」と呼ばれたM365 Copilotの逆転劇、GPT-5が転換点 活用の秘訣は“脱・プロンプト職人”
-
2
人間 vs. 人型ロボ、より多く作業をこなせるのは? 生配信で対決した結果…… 米企業
-
3
「AIデータセンターの電力需要が急増」はホント? 発電大手Jパワー社長が明かした“報道との温度差”
-
4
キオクシア社長「記録的な増収増益」 3カ月の売上収益1兆円、純利益は2990%増 好決算の背景は
-
5
伊藤忠商事や三菱ケミカルなど16社が参画 大手企業の「暗黙知」を活用する新プロジェクト
-
6
NEC社長が説く AI時代と新たな安全保障環境の到来で「ITサービスはこう変わる」
-
7
「邪魔すぎ」――LINE入力欄の“新AI機能”が不評 消し方は?
-
8
生成AIで3Dモデルを自動作成 専門スキル不要でテキストや画像から3D化
-
9
OpenAI、「ChatGPT」に個人向け資産管理機能 金融口座と連携
-
10
Python 3.15に追加されるlazy importと内包表記でのアンパッキングについて調べてみた
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR