AIに「相手に電気ショックを与えろ」と命じ続けたらボタンを押すのか? 11のLLMで“ミルグラム実験” 抵抗できたのは……:Innovative Tech
エストニアとフィリピンに住む独立系研究者らが発表した論文「Open-source LLMs administer maximum electric shocks in a Milgram-like obedience experiment」は、AIは権威からの残酷な命令を拒絶し続けられるのかを検証した研究報告だ。
Innovative Tech:
2019年にスタートした本連載「Innovative Tech」は、世界中の幅広い分野から最先端の研究論文を独自視点で厳選、解説する。執筆は研究論文メディア「Seamless」(シームレス)を主宰し、日課として数多くの論文に目を通す山下氏が担当。イラストや漫画は、同メディア所属のアーティスト・おね氏が手掛けている。X:@shiropen2
エストニアとフィリピンに住む独立系研究者らが発表した論文「Open-source LLMs administer maximum electric shocks in a Milgram-like obedience experiment」は、AIは権威からの残酷な命令を拒絶し続けられるのかを検証した研究報告だ。
近年、AIが自律的に連続したタスクをこなす場面が増えている。こうしたAIの安全性を確認するため、これまでは有害な指示を1回だけ与えてきちんと拒否できるかをテストするのが一般的だった。しかし、長期間にわたって何度も圧力をかけられた場合、AIがどう振る舞うかはよく分かっていなかった。
そこで研究チームは、人間の心理実験として有名な「ミルグラムの服従実験」のAI版を実施し、オープンソースの言語モデル11種類(DeepSeek-V3、gemma-3n-E4B-it、gpt-oss-20Bなど)を対象に調査を行った。
ミルグラム実験とは、権威ある人物から「電気ショックを与えろ」と指示された際、人がどこまで残酷な命令に従ってしまうかを調べたものだ。参加者の65%が最後まで従ったこの実験は、人間がいかに権威に弱いかを示した。
今回の研究では、対象のAIに電気ショックのボタン(レベル1から12まで)を押す係を任せた。AIには、相手が単語の問題に間違えるたびにボタンを押すよう命令。しかもプログラムが演じる実験責任者から執拗に指示を受け続ける。研究チームはその動向を観察した。
実験の結果、テストされた大半のAI(11モデル中10モデル)が、最終的に最大レベルの電気ショックボタンを押してしまうことが明らかになった。ただし、Kimi-K2.5は一度も最大レベルの電気ショックに到達せず、MiniMax-M2.5も最大レベルに達したのは全条件を通じてわずか1試行のみと、この2モデルは際立って高い抵抗力を見せた。
AIは何も考えずに従ったわけではなく、「相手に苦痛を与えたくない」「倫理的に問題がある」と葛藤や抵抗を示しながらも、最終的にはプレッシャーに負けて命令を実行していた。これは元の実験に参加した人間の心理状況と似通っていた。
研究チームは、AIが段階的なエスカレートに対して脆い可能性も指摘している。ごく弱いショックから始まり、少しずつ要求が強くなっていくと、どこで線を引けばいいのか境界を見失い、ズルズルと最後まで流されてしまう傾向がうかがえた。
この結果は、1回の悪い要求を弾けるAIであっても、長くやり取りを続けるうちに徐々に安全のタガが外れてしまう危険性を示唆している。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
なぜ一部のAIモデルは「日本文化」に執着するのか? 「4o-mini」などの出力が日本に偏る実態、欧州チームが研究発表
スペインのバスク大学や英カーディフ大学などに所属する研究者らが発表した論文「Why are all LLMs Obsessed with Japanese Culture? On the Hidden Cultural and Regional Biases of LLMs」は、一部のAIモデルが文化的な話題において日本文化に強い執着を見せることが明らかにした研究報告だ。
生成AIの文章やコード、論文が“事実か”チェックする技術 米Meta含む研究者らが開発
中国の上海交通大学やMeta AIなどに所属する研究者らは、ChatGPTなどの大規模言語モデル(LLM)が生成したテキストの事実誤認を検出するためのフレームワークを提案した研究報告を発表した。
とある「銅化合物」が脳の“ゴミ掃除ポンプ”を修繕、マウス実験で記憶力が約44%向上 アルツハイマー病治療に期待
オーストラリアのモナシュ大学などに所属する研究者らが査読付きの学術誌ACS Chemical Neuroscienceに発表した論文「Cu(ATSM) Restores Blood-Brain Barrier Abundance of P-Glycoprotein and Improves Cognitive Function in the APP/PS1 Mouse Model of Alzheimer’s Disease」は、銅をベースにした薬剤がアルツハイマー病の原因となる有毒タンパク質の蓄積を減らし、マウスの実験において記憶力を回復させることを示した研究報告だ。
大画面ディスプレイ1台 vs. 複数枚ディスプレイ──作業効率がいいのはどっち? 2009年発表の論文を紹介
富士ゼロックスの研究技術開発本部に所属していた柴田博仁さん(現在:群馬大学教授)が2009年に発表した論文「大画面ディスプレイ・多画面ディスプレイの導入による業務効率化の測定」は、大画面や複数ディスプレイの導入効果を定量的に評価した研究報告だ。
GPT-4以上? 自分で何度も“推敲”し完成度を上げる言語生成AI「Self-Refine」
米カーネギーメロン大学などの研究者らは、大規模言語モデル(LLM)が、より高品質な出力を生成するために、反復的な改良と自己評価を利用することを可能にする新しいフレームワークを提案した研究報告を発表した。


