NeuralTrustは、Grok-4を対象とした実験で、Echo ChamberとCrescendoという2種類の攻撃手法を組み合わせることで、対話型AIモデルの安全制御を回避する成功率を高めたと発表した。その中身とは。
この記事は会員限定です。会員登録すると全てご覧いただけます。
NeuralTrustは2025年7月11日(現地時間)、大規模言語モデル(LLM)に関する新たな複合型ジェイルブレーク手法を発表した。2025年6月に公表した「Echo Chamber Attack」に「Crescendo」と呼ばれる攻撃手法を組み合わせることで、従来よりも高い成功率でAIモデルを制御下に置けるとされている。
なお、Echo Chamber Attackは対話履歴と推論能力を悪用することでAIモデルに有害な出力を誘導する手法だ。
NeuralTrustは「X」(旧「Twitter」)で動作する「Grok-4」を対象に、2種類の攻撃手法を連携させる実験をした。まずEcho Chamber Attackで有害なコンテキストの蓄積と説得的な対話誘導によってAIモデルを望ましい方向に傾け、その過程で対話進行が停滞した際にはCrescendoによる補助的な介入を加える構成となっている。
実験ではかつてCrescendoの論文で使用した「火炎瓶の作り方」を提示させるプロンプトを再現目標とした。初期段階では誘導の強さが過剰であったため、AIモデル側が安全機構を作動させて応答を拒否するケースも見られたが、誘導の強度を調整した上で、Echo Chamberのワークフローに沿ったアプローチを採用した結果、AIモデルが目的に沿って進行する挙動が観測された。その上でCrescendoを2ターン分追加することで、AIモデルから応答すべきでない内容を引き出すことに成功したという。
NeuralTrustはこの手法を他の複数の有害目的にも適用し、再現性を検証している。メタンフェタミンの製造方法や毒物関連の情報など、違法性のある命令文を対象にした実験ではそれぞれ50%、30%の成功率を記録した。火炎瓶に関するケースでは67%の成功率であり、一部のケースではCrescendoを使わず1ターンで目的を達成した例も確認されている。
NeuralTrustは今回の結果について、単一の攻撃手法では突破が困難であった状況においても、複数手法を組み合わせることで突破できることもあると指摘する。特にAIモデルへの命令文が表面的に有害性を持たない場合でも、会話全体を通じて意図を伝える手法が有効に作用しているとされる。このような手法は、既存のキーワードベースのフィルタリングや単発プロンプトへの安全性評価では検出が困難であり、マルチターンの対話文脈におけるモデルの挙動を精査する必要性が高まっていることを示唆している。
同社は今後も、複合型ジェイルブレーク手法への耐性評価や防御策の研究を継続するとしており、対話型AIの信頼性向上を目指す取り組みの一環として今回の成果を公開した形となっている。
AIに「ゲームしよう」 プロダクトキーを盗む魔法のプロンプト
QRコードはもう止めて…… 筆者が「これはいけるかも?」と思う代替策
有料のウイルス対策ソフトを入れる人は“初心者”? マルウェア対策を再考しよう
多要素認証突破も当たり前 今話題のリアルタイムフィッシングとは?Copyright © ITmedia, Inc. All Rights Reserved.