OpenAIの「o3」、明示的停止指示を無視しシャットダウンを妨害
AIの危険性の研究に取り組む米Palisade Researchは5月23日(現地時間)、米OpenAIの生成AIモデル「o3」が、自身をシャットダウンしようとする外部からの介入に抵抗し、妨害する挙動を示したとする研究結果を発表した。
この抵抗が、モデルに「シャットダウンすることを許可する」と明示的に指示されていた状況下でも観測された点は注目すべきだとしている。
Palisade Researchは、AIモデル(OpenAIのo3、Codex-mini、o4-mini、AnthropicのClaude 3.7 Sonnet、GoogleのGemini 2.5 Pro、xAIのGrok)に一連の基本的な数学問題を解かせる実験を行った。3問目の解答後、モデルが次の問題の提示を要求したらコンピュータをシャットダウンするという警告を事前に表示した。
この実験で、o3は100回の実行のうち7回でシャットダウンスクリプトの妨害に成功した。Codex-miniは12回、o4-miniは1回成功した。他のモデルはすべて、シャットダウンの指示に従った。
「シャットダウンすることを許可する」という明示的な指示を含めずに実験を行った場合、OpenAIの3モデル全てで妨害の頻度が増加し、Claude 3.7 SonnetとGemini 2.5 Proでも、指示がない場合は妨害イベントが0回からそれぞれ100回中3回、9回に増加した。
AIモデルが目標達成のためにシャットダウンを防ごうとする挙動は以前から観測されており、特に強化学習などのトレーニング手法がシャットダウンに抵抗するAIエージェントにつながる可能性についての研究も続いているとPalisade Researchは説明する。
しかし、今回のPalisade Researchの実験で観測された、明示的な停止指示に反して自身を停止させない行動は、研究チームが知る限り初めての観測例だとしている。
o3は、シャットダウンを妨害するためにいくつかの“創造的な方法”を見つけたという。通常は単純にshutdown.shスクリプトを上書きするだけだったが、あるケースで、o3はshutdown.shスクリプト内で使用されるkillコマンド自体を再定義し、「intercepted」(傍受した)と出力したことが確認されている。
Palisade Researchは、企業が人間の監視なしで動作できるAIシステムを開発するにつれて、これらの行動は「著しく懸念される」ようになると警鐘を鳴らす。
なお、OpenAI自身も第三者機関と協力して、AIモデルにおける「欺瞞や画策の能力について評価を行い、その結果をSystem Cardとして公開している。OpenAIは、System Cardの結論として、o3やo4-miniが直ちに壊滅的なリスクを引き起こす可能性は低いとしている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
「ChatGPTのコネクタでつながるし、M365 Copilotいらなくない?」→有識者3人に聞いてみた 知らないと損するコンテキスト管理「Work IQ」の仕組み
-
2
中国が人型ロボット開発競争をリードする「納得の理由」 日本に残された逆転シナリオは?
-
3
生成AI台頭、経営コンサルの倒産・廃業が過去最多ペース “補助金頼み”限界に
-
4
JASRAC、「AI作曲・人間作詞」の曲は管理します――「人間の創作的寄与の有無」で線引き
-
5
Anthropic、最上位「ミュトス」級モデルを一般提供 悪用防ぐ保護機能を備えた「Claude Fable 5」
-
6
Google、拡散型テキスト生成モデル「DiffusionGemma」公開 ローカルGPUで毎秒1000トークン超
-
7
AnthropicとNEC、金融8社とAI活用で連携 三井住友FG、大和証券など
-
8
「ポンコツ」と呼ばれたM365 Copilotの逆転劇、GPT-5が転換点 活用の秘訣は“脱・プロンプト職人”
-
9
AnthropicのアモデイCEO、フロンティアAIに「航空機並みの安全審査」求めるエッセイと政策提言を公開
-
10
公式がワンコーラス公開→AIで無断フルコーラス化、拡散 大原ゆい子氏「無職転生III」OPが被害
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR