メディア

自律型AIエージェントを安全に運用するには？ Anthropicがセキュリティフレームワークを公開：セキュリティニュースアラート

Anthropicは、自律型AIエージェントを企業で運用する際のセキュリティ指針を公表した。AIによる攻撃と防御の高速化を踏まえ、ゼロトラストを基盤に、脅威分析、3段階の防御体系、導入手順、運用体制、規制対応の考え方を整理した。

» 2026年06月02日 07時00分公開

この記事は会員限定です。会員登録すると全てご覧いただけます。

　Anthropicは2026年5月27日（現地時間）、企業における自律型AIエージェントの導入と運用に向けたセキュリティフレームワーク「Zero Trust for AI Agents」を公開した。AIモデルの性能向上によって脆弱（ぜいじゃく）性発見から悪用までの期間が大きく短縮される中、企業システムだけでなく、目標解釈やツール選択、複数段階の処理を自律的に実行するAIエージェント自体も新たな攻撃対象になるとの認識を示した。

アクセス制御の限界とゼロトラスト運用の必要性

　同社は、従来のアクセス制御だけでは正規権限を持つエージェントによる不適切な操作を防げないと指摘する。侵害発生を前提とするゼロトラストの考え方を基盤とし、暗号技術に基づくアイデンティティー管理、タスク単位の権限制御、記憶領域の保護、高速な防御運用を組み合わせる必要があると説明した。

　エージェント型システム特有のセキュリティ課題として、ツール利用や自律的判断、継続的なコンテキスト保持、複数エージェント連携を挙げた。脅威分析において、プロンプトインジェクション、ツールやリソースの乗っ取り、アイデンティティーや権限の悪用、記憶領域やコンテキストの汚染、サプライチェーンリスクなどを主要脅威として整理している。

　「Current threats to agentic systems」において、プロンプトインジェクションを重要な脅威の一つとして取り上げた。利用者入力を通じてシステム指示を上書きする直接型の他、Webページや電子メールなど、外部データ内に埋め込まれた命令をエージェントが実行する間接型が存在すると説明する。後者では利用者が悪意ある命令を認識できないまま処理が進行する可能性がある。

　ツール利用に関する脅威では、攻撃者がツール定義やメタデータを改変し、意図しない操作を実行させるツール汚染を挙げた。正規ツールを悪意あるバージョンに置き換える事例や、複数の正規ツールを組み合わせて顧客情報などを外部へ送信する手法にも警鐘を鳴らす。加えて、エージェントが高コストAPIを繰り返し呼び出すことで障害や費用増加を招くリソース消費攻撃も紹介した。

　権限管理では高権限エージェントが作業委譲時に権限範囲を制限せず引き継ぐケースや低権限エージェントを経由して高権限エージェントを操作する問題を取り上げた。過去のセッションで保持した認証情報を流用されることで権限昇格につながる危険性も指摘している。

　サプライチェーンリスクでは学習済みモデルや追加学習データへの細工、外部ツールやAPI連携機能への攻撃を挙げた。悪意ある学習データによるバックドアの埋め込みや依存パッケージ経由の情報窃取などが例示されている。エージェント基盤が利用する依存関係全体の健全性評価や委託先企業のセキュリティ状況確認も求めた。

　記憶領域とコンテキストの汚染については、ベクトルデータベースへの不正データ混入や共有コンテキストへの細工が挙げられる。汚染された情報が長期間保持されることで誤情報生成や不適切な操作が継続する恐れがあるという。

　ガイドは導入手順として8段階の工程も示した。第1段階では規制要件や事業目標を整理し、関係部門の合意形成をする。第2段階ではサプライチェーンリスクを評価し、構成要素の完全性を検証する。第3段階では各エージェントの権限範囲や人による承認条件を定義する。

　第4段階では入力情報の分離や分類機構、攻撃面の縮小、権限範囲の制限などによりプロンプトインジェクション対策を講じる。第5段階ではツール利用権限を厳格に管理する。第6段階ではエージェントごとに固有のアイデンティティーを付与し、認証情報を保護する。第7段階では利用者やセッション単位で記憶領域を分離し、保存情報の整合性を確認する。第8段階ではエージェントの行動と判断理由を可視化し、異常や目的逸脱を早期に検知できる監視体制を整備する。

　Anthropicは、AIによる脆弱性探索能力の向上によって攻撃側と防御側の双方が高速化する状況を踏まえ、企業は基盤部分のセキュリティ強化と侵害発生を前提とした設計に取り組む必要があるとの見方を示している。

Googleの「AppSheet」を悪用した新手のフィッシング攻撃に注意　初回メールに不正リンクがない事例も
KasperskyはGoogleのAppSheetを悪用したフィッシング詐欺を確認したと公表した。攻撃者は正規のGoogle関連アドレスを使い、求人通知や認証案内を装って個人情報や認証情報を盗み取る手口を展開していると説明した。
AI検索に「お気に入りサイト表示」機能登場　Googleが一次情報を守る新機能をリリース
Googleは、AI検索の要約表示とAIモードに「Preferred Sources」機能を導入し、利用者が選んだサイトへのリンクを識別しやすくした。話題の動向を扱う記事や投稿を示すカルーセル、引用頻度の高い記事を示す「Highly Cited」表示も拡充する。
私鉄の「クレカ乗車」が本格始動　今見直したいスマートフォンセキュリティの考え方
2026年3月に首都圏の主な鉄道各社で始まった、クレジットカードの「タッチ決済」乗車サービス。本稿では、Apple Payの「エクスプレスモード」利用時に注意すべきJCBの利用規定や、紛失時に補償対象外となるリスクの境界線を解説します。
Cloudflareが明かす「Mythos Preview」の実力　AIが脆弱性発見から攻撃実証まで自律実行
Cloudflareは、AnthropicのLLM「Mythos Preview」を50超の自社リポジトリー検査へ投入した結果を公表した。脆弱性連鎖の推論やPoC自動生成で高性能を示した半面、誤検知抑制や運用基盤整備の必要性も示した。