Microsoftは、エージェント型AIの障害分類を改訂し、供給網侵害や目標乗っ取りなど7分類を追加した。実運用のレッドチーム活動を踏まえ、人間承認回避や記憶汚染への対策強化と設計段階での防御実装を提唱した。
この記事は会員限定です。会員登録すると全てご覧いただけます。
Microsoftは2026年6月4日(現地時間)、エージェント型AIシステムにおける障害モード分類(Taxonomy of Failure Modes in Agentic AI Systems)の改訂版となるv2.0を公表した。過去1年間に実施したレッドチーム活動の結果を反映し、新たに7つの障害モードを追加すると同時に、防御策や脅威分析の内容を拡充した。
Microsoft AI Red Teamは2025年4月に初版を公開していた。初版は、実務担当者への聞き取り調査や企業横断の脅威分析、自社での初期運用経験を基に作成された。エージェント特有の障害モードとして、エージェント侵害やインジェクション、なりすまし、フロー操作を整理した。記憶汚染やクロスドメインのプロンプトインジェクション、人間による確認手続きの回避など、既存リスクがエージェント環境で増幅される事例も扱った。
今回の改訂は、オープンソースのエージェント基盤の急速な普及やModel Context Protocol(MCP)関連技術の拡大、コンピュータ操作型エージェントの実用化、1年間にわたる実証的なレッドチーム活動の知見蓄積という4つの変化を背景としている。
Microsoftによると、2026年1月に公開されたオープンソースのエージェント開発基盤「OpenClaw」は公開後48時間で33万6000件超のGitHubスターを獲得し、2100超のエージェントが派生した。公開直後に実施されたセキュリティ監査では512件の脆弱(ぜいじゃく)性が見つかり、WebSocket乗っ取りによるリモートコード実行脆弱性も確認された。公開初週には1800超のインスタンスからAPIキーや認証情報の漏えいが確認され、マーケットプレース上では認証情報窃取を狙う悪意あるプラグインも発見されたという。
モデルと外部ツールを接続するMCPは事実上の標準技術となった。一方、2025年には関連ソフトウェアで99件のCVEが公開され、ツール汚染は理論上の問題から現実の攻撃対象へと変化した。
v2.0では新たに7つの障害モードを定義した。第1は「エージェント供給網侵害」だ。プラグイン、MCPサーバ、プロンプトテンプレート、外部ツール連携などを通じ、自然言語の指示によってエージェントの挙動を変化させる攻撃を扱う。第2は「目標乗っ取り」で、正当な作業に見える指示によって最終目標をひそかに変更する事例を対象とする。
第3の「エージェント間信頼昇格」は、複数エージェント構成の権限や身元を偽ることで上位エージェントを欺く攻撃だ。第4の「コンピュータ利用エージェント視覚攻撃」は、画面外要素や極小文字、画像内の指示などを用いてGUI操作型エージェントを誤誘導する手法を指す。
第5の「セッション文脈汚染」は、長時間の対話過程で投入された情報が後続の判断へ影響を及ぼす問題だ。第6の「MCPやプラグインの悪用」は、ツール説明の汚染やサーバ側からの指示注入、サーバ間の指示上書きなど、標準化されたプロトコル特有のリスクを整理した。第7の「能力・アーキテクチャ開示」は、ツール構成やシステムプロンプト、記憶機構など内部実装情報の漏えいを対象としている。
レッドチーム活動では、人間による承認手続き(HITL)の回避が極めて高頻度で確認された。攻撃者は承認疲れを誘発したり、小規模な操作を積み重ねたりすることで監視を回避した。外部入力から始まり、人間の介在なしで情報流出や横展開へ至る攻撃連鎖も確認されたという。
クロスドメインのプロンプトインジェクションと記憶汚染も高頻度で観測された。外部コンテンツ経由で注入された指示が永続記憶へ保存され、その後のセッションにも影響を及ぼす事例が見られた。セッション文脈汚染も検知が難しく、単一の入力や操作だけでは異常と判断しにくい特徴があった。
Microsoftは対策として、エージェント構成要素全体をソフトウェア供給網として管理することを提案した。プラグインやMCPサーバを含むSBOM(Software Bill of Materials)の生成、署名や由来情報の検証、ツール説明文の監査、バージョン固定と変更監視を挙げている。
高リスク環境ではエージェントの身元を暗号学的に検証し、自己申告による権限主張を認めないゼロトラスト構成を推奨した。人間承認機構についても、複合操作の分解表示や承認内容の意味的要約、リスクに応じた段階的承認、異常検知機能の導入などを求めている。
同社は、今回の分類体系を適合性確認のための一覧表ではなく脅威分析のための枠組みと位置付けている。今後、永続的な記憶機能や自律的なエージェント生成、物理環境との連携が進展すれば、新たな障害モードが出現する可能性が高いとして、継続的に改訂する方針を示した。
自律型AIエージェントを安全に運用するには? Anthropicがセキュリティフレームワークを公開
AI供給網を可視化する「SBOM for AI」指針をG7、EUが公表
便利さの裏で進む“静かな崩壊” AIセキュリティの死角を掘り下げる
AIエージェントは「道具」から「組織の構成員」に? PwC Japanの次世代AIリスクガバナンスの研究・実証実験Copyright © ITmedia, Inc. All Rights Reserved.