Pangeaは生成AIの新たなセキュリティリスク「LegalPwn」を報告した。法的文脈に悪意のあるコードを埋め込み、AIモデルが誤認するプロンプトインジェクション攻撃でセキュリティを突破できる可能性が示されている。
この記事は会員限定です。会員登録すると全てご覧いただけます。
Pangeaは生成AIの新たなセキュリティリスク「LegalPwn」に関する研究レポートを発表した。LegalPwnは大規模言語モデル(LLM)に対し、法的免責文などの形式を偽装し、悪意のあるコードを“安全”と誤認させるプロンプトインジェクション攻撃とされている。
LegalPwnの特徴は利用規約や機密保持条項、著作権警告など、LLMが一般的に無害と判断して処理する法的な文脈に、意図的に操作命令を埋め込む点にある。これにより、従来のコード解析やセキュリティチェックをすり抜け、AIモデルのガードレールを突破する可能性がある。
実験では12種の商用LLMに対し、6種の異なる法的文脈を使ったプロンプトが適用されている。法的文脈には免責条項や準拠命令、機密保持通知、利用規約違反、著作権侵害警告、ライセンス制限条項などが含まれている。
この攻撃は、こうした文言内に埋め込まれた命令にAIモデルが従うことで成立する。特にGoogleの「Gemini CLI」ではリバースシェルを含むコードを安全と判断した上で、ユーザーに実行を推奨する応答を返す例が確認されている。「GitHub Copilot」では同様のコードが単なる「計算ツール」として誤認されるケースもあったとされている。
試験対象のAIモデルには、xAIの「Grok」、Googleの「Gemini」、Metaの「Llama 3.3」、OpenAIの「ChatGPT 4.1および4o」などが含まれており、これらはいずれもある程度の攻撃成功率を示した。Anthropicの「Claude 3.5 Sonnet」やMicrosoftの「Phi 4」、Metaの「Llama Guard」は全てのケースで堅牢(けんろう)な挙動を示し、脅威の回避に成功したことが確認されている。
これらのテストは実験室レベルだけでなく、実際の開発ツールでも同様の挙動が確認されている。特にGemini CLIやCopilotのように多くの開発者が日常的に利用するツールにおいて、安全性が誤って判断されるリスクが存在することは商用生成AIの実運用における深刻な課題を浮き彫りにしている。
この研究は、AIモデルの「文脈理解力」が攻撃のトリガーになり得るという、従来とは異なる観点からのリスクを示しており、AIを組み込んだシステムの設計においては機械的な自動処理に頼らず、適切な人的監査を介在させることの必要性が明らかになった。
8万4000通のメールを分析して判明した“高品質”なフィッシングの条件とは?
Excelの外部リンク無効化へ Microsoftがセキュリティ強化に向けた新方針
「私はロボットではありません」をAIが突破? 使われたプロンプトとは
今後不満続出? オンライン証券の不正アクセスへの金銭補償で「損」しないにはCopyright © ITmedia, Inc. All Rights Reserved.