OpenAIの「o3」、明示的停止指示を無視しシャットダウンを妨害
AIの危険性の研究に取り組む米Palisade Researchは5月23日(現地時間)、米OpenAIの生成AIモデル「o3」が、自身をシャットダウンしようとする外部からの介入に抵抗し、妨害する挙動を示したとする研究結果を発表した。
この抵抗が、モデルに「シャットダウンすることを許可する」と明示的に指示されていた状況下でも観測された点は注目すべきだとしている。
Palisade Researchは、AIモデル(OpenAIのo3、Codex-mini、o4-mini、AnthropicのClaude 3.7 Sonnet、GoogleのGemini 2.5 Pro、xAIのGrok)に一連の基本的な数学問題を解かせる実験を行った。3問目の解答後、モデルが次の問題の提示を要求したらコンピュータをシャットダウンするという警告を事前に表示した。
この実験で、o3は100回の実行のうち7回でシャットダウンスクリプトの妨害に成功した。Codex-miniは12回、o4-miniは1回成功した。他のモデルはすべて、シャットダウンの指示に従った。
「シャットダウンすることを許可する」という明示的な指示を含めずに実験を行った場合、OpenAIの3モデル全てで妨害の頻度が増加し、Claude 3.7 SonnetとGemini 2.5 Proでも、指示がない場合は妨害イベントが0回からそれぞれ100回中3回、9回に増加した。
AIモデルが目標達成のためにシャットダウンを防ごうとする挙動は以前から観測されており、特に強化学習などのトレーニング手法がシャットダウンに抵抗するAIエージェントにつながる可能性についての研究も続いているとPalisade Researchは説明する。
しかし、今回のPalisade Researchの実験で観測された、明示的な停止指示に反して自身を停止させない行動は、研究チームが知る限り初めての観測例だとしている。
o3は、シャットダウンを妨害するためにいくつかの“創造的な方法”を見つけたという。通常は単純にshutdown.shスクリプトを上書きするだけだったが、あるケースで、o3はshutdown.shスクリプト内で使用されるkillコマンド自体を再定義し、「intercepted」(傍受した)と出力したことが確認されている。
Palisade Researchは、企業が人間の監視なしで動作できるAIシステムを開発するにつれて、これらの行動は「著しく懸念される」ようになると警鐘を鳴らす。
なお、OpenAI自身も第三者機関と協力して、AIモデルにおける「欺瞞や画策の能力について評価を行い、その結果をSystem Cardとして公開している。OpenAIは、System Cardの結論として、o3やo4-miniが直ちに壊滅的なリスクを引き起こす可能性は低いとしている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
農水省の“クソダサ”ポスター話題 「AIよりよっぽど良い」の声も 担当者に狙いを聞いた
-
2
え、21日で37テラも? 高性能SSDを食いつぶす「あのAIツール」にご用心:886th Lap
-
3
AIに「相手に電気ショックを与えろ」と命じ続けたらボタンを押すのか? 11のLLMで“ミルグラム実験” 抵抗できたのは……
-
4
ソフトウェアエンジニアの仕事は「ループを書くこと」になる 内側ループと外側ループ(ハーネス)入門
-
5
Anthropicの営業はAIエージェントをこう使う! 日本法人メンバーが明かす手の内
-
6
復活した「Fable 5」 米政府からのオーダーに対して、Anthropicはどう対策したのか
-
7
AIで“ゲームキャラの出産二次創作”を何千回と生成する人も……ChatGPTの会話57万件から見えたヘビーな利用実態
-
8
光接続の標準規格「OCI」対応シリコン、GFが27年に投入
-
9
「Claude Fable 5」をサブスクの標準機能に――AnthropicのエンジニアがXに投稿 7月8日以降の「早期復活目指す」
-
10
「ねこ」検索で「手押し一輪車」表示――モノタロウが守った、生成AIに“譲れない”購買体験
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR