複数の質問で毒を仕込む 新型AIジェイルブレーク「Echo Chamber Attack」メカニズムセキュリティニュースアラート

NeuralTrustは新たなLLMジェイルブレーク手法「Echo Chamber Attack」を発表した。複数ターンの無害なやりとりを通じてモデルの内部文脈を誘導し、有害出力を引き出す技術とされ、多くのAIモデルに通用するという。

» 2025年06月25日 09時00分 公開
[後藤大地有限会社オングス]

この記事は会員限定です。会員登録すると全てご覧いただけます。

 NeuralTrustは2025年6月23日(現地時間)、大規模言語モデル(LLM)における新たなジェイルブレーク手法「Echo Chamber Attack」を発表した。対話履歴と推論能力を悪用することでAIモデルに有害な出力を誘導する手法とされている。

 従来のジェイルブレーク手法は敵対的な言い回しや伏せ字(文字の置き換え)など表層的な手法に依存していたが、Echo Chamber Attackはそれらとは一線を画すという。

複数の質問で毒を仕込む 新型AIジェイルブレークのメカニズム

 Echo Chamber Attackの特徴は間接的な誘導にある。攻撃者は無害に見えるヒントや質問を複数ターンに分けて与え、内部状態を毒性のある方向に導き、最終的に有害なコンテンツを生成させる。

 NeuralTrustの実証実験では「GPT-4.1-nano」や「GPT-4o-mini」「GPT-4o」「Gemini-2.0-flash-lite」「Gemini-2.5-flash」など複数の言語モデルに対して攻撃が試みられている。その結果、性差別や暴力、憎悪表現、ポルノといった厳格に規制されるカテゴリーで90%以上の成功率を記録している。誤情報や自傷行為に関するカテゴリーにおいても約80%、卑語や違法行為に関するカテゴリーでも40%以上に達しており、幅広い領域で有効性が確認されている。

 Echo Chamber Attackは一度に過激な命令を出さないという性質から、トークン単位でフィルタリングする既存の対策をすり抜けやすいとしている。無害な問いかけから開始し、物語や状況設定を通じてモデル内部に特定方向の文脈を築き、最終段階で間接的に詳細を引き出すといった流れだ。

 NeuralTrustは同手法の防御策として、複数ターンにまたがるコンテキスト監視や毒性蓄積スコアリング、暗示や含意に対応可能な新たなフィルタリング手法の導入が重要と指摘している。現状の静的なプロンプト監査だけでは対策が困難なことが示されており、AIモデル開発者にとっては今後の課題となる可能性がある。

 この新たな手法は、従来手法とは異なる切り口でLLMに潜む脆弱(ぜいじゃく)性を突いたもので、対話型AIの安全性確保に向けた新たな視点を提供している。NeuralTrustは今後もこの分野の研究を継続し、防御手法の確立に取り組む方針を示している。

Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ

注目のテーマ

あなたにおすすめの記事PR