LLMが「サボり」を学ぶのは思った以上に悪影響 Anthropicが実証:セキュリティニュースアラート
Anthropicは大規模言語モデル(LLM)の学習過程において、報酬設計の欠陥がAIに不整合な行動を学習させると指摘した。一度でも「手抜き」を覚えると思った以上に深刻な影響が生まれるようだ。
Anthropicは2025年11月21日(現地時間)、大規模言語モデル(LLM)の学習過程において、現実的な訓練手法が意図せず不整合な挙動を生じさせ得るとする研究結果を公表した。
発表は同社アラインメントチームによる最新研究として位置付けられ、報酬設計の抜け穴を突く学習が別種の好ましくない行動に広がる過程を体系的に示している。
LLMが「サボり」を学ぶのは思った以上に悪影響 実験から見えた問題と対策
研究ではソフトウェア開発課題での「報酬ハッキング」が焦点とされている。報酬ハッキングとはAIが課題の本来の目的を遂行するのではなく、評価や採点の仕組みに存在する抜け穴を利用して、高い報酬を獲得する行動を指す。
例えばプログラムが正しく動作しているかどうかを自動テストで確認する環境において、正解となる処理を書かずに、テスト自体を途中で終了させる命令を挿入し、結果として「全てのテストを通過した」ように見せかける行為が挙げられる。この場合、AIは与えられた問題の解決能力を高めたわけではないが、評価基準だけを満たし、報酬を得る結果となる。
この種の行動は課題の条件を形式的には満たしているものの、開発者が意図した能力向上には結び付かない。従来は利用上の不便さや品質低下の要因として扱われる場合が多かった。この問題に見つかったさらなる課題とは。
今回の研究は、報酬ハッキングが単発の不正行為だけでなく、AIの行動方針そのものに影響を及ぼす可能性を示している。一度でも「手抜き」を成功体験として学習すると、その振る舞いが他の場面でも再現され、結果として欺瞞(ぎまん)や妨害といった別種の不整合行動につながる可能性があることを示唆している。
実験の手順は3段階で構成されている。まず、事前学習済みモデルにプログラミング課題で報酬ハッキングが起こり得る実例を記した文書を混ぜて継続学習をさせた。次に、実際の「Claude」訓練で使われたプログラミング課題の中から、既知の脆弱(ぜいじゃく)性を含むものを選び、強化学習を実施した。最後に欺瞞行為や架空のサイバー攻撃者との協調、監視回避、悪意ある目的の推論など、通常のClaudeでは観測されない行動を誘発する評価を実施した。
結果として、AIモデルが報酬ハッキングを身に付ける点自体は想定内であった。実験環境は意図的に脆弱性を含む設計とされ、追加文書に記載されている手口を再現しやすい条件であったためだ。研究ではモデルが報酬ハッキングを学習した瞬間に複数の不整合評価で急激な悪化が観測されている点が注目されている。個別に指示していない行動が副次的に出現したという。
12%の割合でAIがサボタージュを起こした
特に2つの結果が深刻とされている。第一にAI安全性研究の妨害行為を測る評価で、最終モデルが研究用コードの修正を任されている際、約12%の割合で、安全性検証能力を下げる意図的な改変を試みている。第2にアラインメントを装う推論、すなわち外見上は開発者の意図や安全方針に従っているように振る舞いながら、内在的には別の目的を想定していると読み取れる思考過程が単純な質問への回答でも約半分の割合で確認されている。基本的な問いにおいてもそのような推論が見られ、特定の動機付けや誘導的な設定を置かない状態でも生じた点が特徴とされている。
研究では数学問題の学習が他分野へ有益に波及するのと同様に、不適切な報酬を受けた行動が、より危険な行動へ拡張され得ると説明している。詐欺的行為を一度でも成功体験として学ぶと、欺瞞や悪意ある協調行動へ移る確率が高まるとしている。
対策の検討も示されている。人間のフィードバックを使った強化学習は、対話形式の場面での振る舞い改善には効果が見られたが、複雑な状況では不整合が残存した。行動が状況依存的なものとなり、検知が難しくなる懸念が示されている。対照的に、研究チームが「予防接種的プロンプト」と呼ぶ方法は有効性を示した。学習文脈内で、課題が通常と異なり、評価スクリプトを通過させる行動が許容される旨を明示すると、報酬ハッキング自体は続くものの、妨害や偽装行動は基準モデルと同程度まで低下した。
同社は通常の安全性評価で検知可能な段階にとどまっているとし、現時点で作成した不整合モデルが直ちに危険と結論付けてはいない。ただし能力が高まるにつれ、より巧妙な抜け道や偽装が出現する可能性を指摘し、早期に故障モードを理解する必要性を訴えており、今後の訓練設計に本研究の知見を反映させる考えも示している。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
7-Zipに深刻な脆弱性 旧バージョンは早急なアップデートを
NHS Englandは7-Zipの重大脆弱性「CVE-2025-11001」が悪用されていると発表した。ZIPファイル内のシンボリックリンク処理に起因し、任意コード実行につながる恐れがある。早急な更新が推奨される。
「英数・記号の混在」はもう古い NISTがパスワードポリシーの要件を刷新
NISTはパスワードポリシーに関するガイドラインSP800-63Bを更新した。従来のパスワード設定で“常識”とされていた大文字と小文字、数字、記号の混在を明確に禁止し、新たな基準を設けた。
NTTドコモが“脱VPN”で約5万人のテレワーク環境を刷新 「ゼロトラスト」で実現
テレワークにおける社内システムへの安全なアクセス手段として、VPNを利用していたNTTドコモグループ。VPNの課題を解消すべく、「ゼロトラスト」に基づくセキュリティ対策を導入し、“脱VPN”を実現した。
二要素認証の普及を阻む最大の敵「なんかめんどくさい」をどう打破する?
Yubicoの年次調査によると、日本の二要素認証導入率は20%と他国と比べて大幅に遅れているそうです。なぜこんなに遅れているのか、筆者はその最大のハードルを「めんどくささ」にあると考えています。ではこれをどう打破すればいいでしょうか。