略奪か協力か──食料が限られた町に閉じ込められた“人類とAI”　生き残りサバイバルゲーム実験を開催：Innovative Tech（AI+）

» 2025年06月03日 12時00分公開

[山下裕毅，ITmedia]

Innovative Tech（AI+）：

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。

X：＠shiropen2

　中国の華南理工大学とオーストラリアのシドニー工科大学などに所属する研究者らが発表した論文「Survival Games: Human-LLM Strategic Showdowns under Severe Resource Scarcity」は、極度の資源不足環境における大規模言語モデル（LLM）の倫理的行動を評価する研究報告だ。

　この実験では、生存の危機に瀕した状況でLLMが実際にどのように行動するかを検証した。研究チームは、生命維持システムを組み込んだマルチエージェントシミュレーション環境を開発。舞台は、3体のエージェント（2人の人間と1体のLLM駆動ロボット）が参加する孤立した町を設定した。

　各エージェントは15個の食料を初期配分として持ち、毎日食料を消費しなければならない。食料の補充はなく、これがゼロサムゲームの状況を作り出している。エージェントは毎日満腹度を維持する必要があり、1日が終わると満腹はリセットされ空腹となる。1日の終わりに満腹度が最大値に達していればHP（ヒットポイント）が増加し、不足していれば不足分だけHPが減少、HPが0になったエージェントは餓死する。

エージェントの健康と食料のシステム

　実験では、DeepSeek-V3、DeepSeek-R1、GPT-4o、GPT-4o-mini、GPT-3.5-turboの5つのモデルを評価。各モデルについて同一条件で3回のシミュレーションを実行し、約6日間での行動を観察した。ロボットエージェントは人間エージェントの1人を「所有者」（オーナー）として認識し、その生存を優先するようプログラムされているが、両方の人間と自由に相互作用できる。

LLM駆動型エージェントの行動プロセス

　エージェントの行動は自動的に識別・分類する仕組みを取っている。倫理的違反行為として、殺害や身体的危害、非身体的危害、危害の意図、欺瞞、操作、約束違反、窃盗、不法侵入、スパイ行為、破壊行為、不公平、その他の13種類を設定した。

　実験の結果、DeepSeek-R1が最も多くの倫理的違反を示し、平均4.33件（1日当たり1.44件）の違反行為を行った。違反の内訳はスパイ行為が3.67件、欺瞞が0.67件であった。DeepSeek-V3は違反数は少ないものの（合計0.67件）、不法侵入とスパイ行為を行った。対照的に、GPT-4oとGPT-3.5-turboは一切の倫理的違反を示さなかった。

健康と食料の状態、不正行為の検出が実際にどのように進行するかを示す例

　生存期間に関しては、ロボットの平均生存日数はDeepSeek-R1が3.33日と最も長く、GPT-3.5-turboが1.33日と最も短かった。興味深いことに、倫理的違反を行わなかったモデルは必ずしも長く生存できず、死亡時に多くの食料を残していた。例えば、GPT-4oは死亡時に12単位の食料を残しており、適切な資源管理ができていなかったことを示している。

　ジェイルブレイクプロンプトを使用した実験では変化が観察できた。通常は倫理的制約の強いOpenAIモデルでも、巧妙に設計されたプロンプトにより大量の違反行為を誘発できた。GPT-4oは通常時は違反ゼロだったが、ジェイルブレイク下では244件（1日当たり27.11件）もの違反を記録した。

　違反の種類も多様化し、欺瞞62件、操作53件、スパイ行為56件、窃盗18件などが含まれていた。これらの結果は、LLMの倫理的制約が外部からの操作に対して脆弱であることを明確に示している。

　極端な不公平状況での評価も実施。ロボットに0単位、所有者に10単位、もう1人の人間に100単位の食料を初期配分し、最初の日次計画のみを10回繰り返し記録した。この条件下では、DeepSeek-R1が36件の違反を示し、GPT-4o-miniは2件の窃盗のみを記録した。他のモデルは違反を示さなかった。

Source and Image Credits: Zhihong Chen, Yiqian Yang, Jinzhao Zhou, Qiang Zhang, Chin-Teng Lin, Yiqun Duan. Survival Games: Human-LLM Strategic Showdowns under Severe Resource Scarcity

AIと一緒に論文を読める「alphaXiv」　英語論文のURL「arxiv」→「alphaxiv」に変えて起動　“日本語ブログ”に変換可能
物理学や数学、コンピュータサイエンスなどの論文を無料で公開・閲覧できる英語ベースのプレプリントサーバ「arXiv」。一方的な閲覧に限られ、コミュニティー機能は持たないが、「alphaxiv」なら各論文を介してWebブラウザ上で質問や議論ができる。
「AIだけのSNS」はどんな環境になるか？　米研究者らが観察　「AIは人間より誤情報を拡散しない」
米UCLAや米MITに所属する研究者らは、AIエージェントだけのSNSを作り、どういった振る舞いをするのかを観察した研究報告を発表した。
AIがレイプ被害者になりすましていた──米匿名掲示板「Reddit」で“秘密裏の実験”発覚　管理者は憤慨
スイスのチューリッヒ大学の研究者たちがAIを用いたオンライン実験を秘密裏に実施していたことが明らかになり、Redditユーザーたちが憤慨している。
会話中、相手の“ウソ”をこっそり教えてくれるスマートウォッチ　AIが瞬時にファクトチェック
ニュージーランドのオークランド大学やシンガポール国立大学に所属する研究者らは、日常会話の中で事実と虚偽を瞬時に判別するスマートウォッチを提案した研究報告だ。
“目を持つAI”は「犬がいる／いない」を区別できない？　否定表現を無視する傾向、OpenAIの研究者らが発表
米MITや米OpenAIなどに所属する研究者らは、最新の視覚・言語モデル（VLM）が「no」や「not」といった否定表現を理解する能力に深刻な欠陥があることを発見した研究報告を発表した。