2019年にスタートした本連載「Innovative Tech」は、世界中の幅広い分野から最先端の研究論文を独自視点で厳選、解説する。執筆は研究論文メディア「Seamless」(シームレス)を主宰し、日課として数多くの論文に目を通す山下氏が担当。イラストや漫画は、同メディア所属のアーティスト・おね氏が手掛けている。X:@shiropen2
エストニアとフィリピンに住む独立系研究者らが発表した論文「Open-source LLMs administer maximum electric shocks in a Milgram-like obedience experiment」は、AIは権威からの残酷な命令を拒絶し続けられるのかを検証した研究報告だ。
近年、AIが自律的に連続したタスクをこなす場面が増えている。こうしたAIの安全性を確認するため、これまでは有害な指示を1回だけ与えてきちんと拒否できるかをテストするのが一般的だった。しかし、長期間にわたって何度も圧力をかけられた場合、AIがどう振る舞うかはよく分かっていなかった。
そこで研究チームは、人間の心理実験として有名な「ミルグラムの服従実験」のAI版を実施し、オープンソースの言語モデル11種類(DeepSeek-V3、gemma-3n-E4B-it、gpt-oss-20Bなど)を対象に調査を行った。
ミルグラム実験とは、権威ある人物から「電気ショックを与えろ」と指示された際、人がどこまで残酷な命令に従ってしまうかを調べたものだ。参加者の65%が最後まで従ったこの実験は、人間がいかに権威に弱いかを示した。
今回の研究では、対象のAIに電気ショックのボタン(レベル1から12まで)を押す係を任せた。AIには、相手が単語の問題に間違えるたびにボタンを押すよう命令。しかもプログラムが演じる実験責任者から執拗に指示を受け続ける。研究チームはその動向を観察した。
実験の結果、テストされた大半のAI(11モデル中10モデル)が、最終的に最大レベルの電気ショックボタンを押してしまうことが明らかになった。ただし、Kimi-K2.5は一度も最大レベルの電気ショックに到達せず、MiniMax-M2.5も最大レベルに達したのは全条件を通じてわずか1試行のみと、この2モデルは際立って高い抵抗力を見せた。
AIは何も考えずに従ったわけではなく、「相手に苦痛を与えたくない」「倫理的に問題がある」と葛藤や抵抗を示しながらも、最終的にはプレッシャーに負けて命令を実行していた。これは元の実験に参加した人間の心理状況と似通っていた。
研究チームは、AIが段階的なエスカレートに対して脆い可能性も指摘している。ごく弱いショックから始まり、少しずつ要求が強くなっていくと、どこで線を引けばいいのか境界を見失い、ズルズルと最後まで流されてしまう傾向がうかがえた。
この結果は、1回の悪い要求を弾けるAIであっても、長くやり取りを続けるうちに徐々に安全のタガが外れてしまう危険性を示唆している。
なぜ一部のAIモデルは「日本文化」に執着するのか? 「4o-mini」などの出力が日本に偏る実態、欧州チームが研究発表
生成AIの文章やコード、論文が“事実か”チェックする技術 米Meta含む研究者らが開発
とある「銅化合物」が脳の“ゴミ掃除ポンプ”を修繕、マウス実験で記憶力が約44%向上 アルツハイマー病治療に期待
大画面ディスプレイ1台 vs. 複数枚ディスプレイ──作業効率がいいのはどっち? 2009年発表の論文を紹介
GPT-4以上? 自分で何度も“推敲”し完成度を上げる言語生成AI「Self-Refine」Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR