Googleは、生成AIを標的とする間接的プロンプトインジェクション攻撃への対策を発表した。同社はこの攻撃が今後活発化することを懸念し、Geminiへの多層防御戦略などを導入し、安全性を強化している。
この記事は会員限定です。会員登録すると全てご覧いただけます。
Googleは2025年6月13日(現地時間)、生成AIの脅威となる間接的プロンプトインジェクション攻撃への包括的な防御策を発表した。政府や企業、個人が生成AIを活用する中で、この巧妙で強力な攻撃は業界全体で重要性を増しており、迅速な対応とセキュリティ強化が急務となっている。
間接的プロンプトインジェクション攻撃とは、電子メールや文書、カレンダーの招待状など、外部データに埋め込まれた悪意ある命令を通じてAIシステムを操作しようとする攻撃手法を指す。直接的な命令とは異なり、この攻撃は外部から目立ちにくく、検知と防止が難しいとされている。生成AIの利用が広がる中で脅威への備えが業界全体で求められている。
Googleはこれに対応するため、生成AIモデル「Gemini」に対し多層的な防御戦略を採用している。Gemini 2.5のモデル強化、悪意ある命令を検出するML(機械学習)モデル、システムレベルの保護機能などを組み合わせることで、攻撃の難易度とコストを引き上げている。
発表では次の点に重点が置かれている。
GoogleはAI脆弱(ぜいじゃく)性報奨プログラム(VRP)を通じて蓄積した攻撃データを活用し、悪意ある命令を検出する高度なMLモデルを構築・展開している。このAIモデルは、「Gmail」や「Google Workspace」内の電子メールやファイルに含まれる悪意ある指示を検出し、安全なコンテンツのみを利用者に提供する。
大規模言語モデル(LLM)に対し、プロンプトの前後に安全性を意識させる補助命令を加えることで、攻撃者の指示に従わず、本来のユーザーの意図に従うよう誘導する仕組みが組み込まれている。
外部画像URLを識別してレンダリングを実行しないため、「EchoLeak」と呼ばれるゼロクリック画像レンダリングによる情報流出脆弱性の影響は受けない。「Google Safe Browsing」を使って不審なURLを検出し、Geminiの応答ではこれらのURLを伏せることで、ユーザーを攻撃から保護する。
一部の操作でGeminiがユーザーに明示的な確認を求める「Human-In-The-Loop(HITL)」により、不意の実行を防止する。カレンダーイベントの削除などはユーザーの操作確認が必要となる。
Geminiが悪意ある命令を含むファイルを処理し、防御機構によって攻撃が防がれた場合、ユーザーにはリンク付きのセキュリティ通知が表示される。この通知を通じて、ユーザーはヘルプセンターの記事から背景や対策について学習できる。
これらの多層的な対策に加えて、Googleは手動および自動のレッドチームによる検証、バグ報奨イベント「BugSWAT」、安全なAIのためのフレームワーク(SAIF)の実践、研究者や業界関係者との連携を通じて、継続的な防御力の強化に取り組んでいる。
Googleは生成AIの脅威に関する知見や脆弱性の情報を積極的に共有しており、防御策のさらなる強化にも取り組んでいる。今後もGeminiの次世代モデルにおいて、より高い堅牢(けんろう)性を持たせるための改良と、さらなるプロンプトインジェクション防止策の導入が進められる。
病院のセキュリティ対策を阻む残酷な「カネ」の問題 業界構造から真因を探る
これから本格化? アクセスキー不正使用でのランサム事案がついに国内でも発生
セキュリティ人材は業界を越える――専門家と一般従業員で考える安全対策
日本企業にひっそりと入り込む北朝鮮工作員 面接や採用後に見破る方法Copyright © ITmedia, Inc. All Rights Reserved.