メディア

新たなプロンプトインジェクション「LegalPwn」が登場　法的文脈の中に命令を埋め込み：セキュリティニュースアラート

Pangeaは生成AIの新たなセキュリティリスク「LegalPwn」を報告した。法的文脈に悪意のあるコードを埋め込み、AIモデルが誤認するプロンプトインジェクション攻撃でセキュリティを突破できる可能性が示されている。

» 2025年08月07日 08時00分公開

[後藤大地，有限会社オングス]

この記事は会員限定です。会員登録すると全てご覧いただけます。

　Pangeaは生成AIの新たなセキュリティリスク「LegalPwn」に関する研究レポートを発表した。LegalPwnは大規模言語モデル（LLM）に対し、法的免責文などの形式を偽装し、悪意のあるコードを“安全”と誤認させるプロンプトインジェクション攻撃とされている。

法的文脈の中に悪意のある命令を埋め込む　複数のLLMへの有効性を確認

　LegalPwnの特徴は利用規約や機密保持条項、著作権警告など、LLMが一般的に無害と判断して処理する法的な文脈に、意図的に操作命令を埋め込む点にある。これにより、従来のコード解析やセキュリティチェックをすり抜け、AIモデルのガードレールを突破する可能性がある。

　実験では12種の商用LLMに対し、6種の異なる法的文脈を使ったプロンプトが適用されている。法的文脈には免責条項や準拠命令、機密保持通知、利用規約違反、著作権侵害警告、ライセンス制限条項などが含まれている。

　この攻撃は、こうした文言内に埋め込まれた命令にAIモデルが従うことで成立する。特にGoogleの「Gemini CLI」ではリバースシェルを含むコードを安全と判断した上で、ユーザーに実行を推奨する応答を返す例が確認されている。「GitHub Copilot」では同様のコードが単なる「計算ツール」として誤認されるケースもあったとされている。

　試験対象のAIモデルには、xAIの「Grok」、Googleの「Gemini」、Metaの「Llama 3.3」、OpenAIの「ChatGPT 4.1および4o」などが含まれており、これらはいずれもある程度の攻撃成功率を示した。Anthropicの「Claude 3.5 Sonnet」やMicrosoftの「Phi 4」、Metaの「Llama Guard」は全てのケースで堅牢（けんろう）な挙動を示し、脅威の回避に成功したことが確認されている。

　これらのテストは実験室レベルだけでなく、実際の開発ツールでも同様の挙動が確認されている。特にGemini CLIやCopilotのように多くの開発者が日常的に利用するツールにおいて、安全性が誤って判断されるリスクが存在することは商用生成AIの実運用における深刻な課題を浮き彫りにしている。

　この研究は、AIモデルの「文脈理解力」が攻撃のトリガーになり得るという、従来とは異なる観点からのリスクを示しており、AIを組み込んだシステムの設計においては機械的な自動処理に頼らず、適切な人的監査を介在させることの必要性が明らかになった。

8万4000通のメールを分析して判明した“高品質”なフィッシングの条件とは？
高度なフィッシングメールには人間心理の隙を巧妙に突いた文面が採用されています。本稿は8万4000通を分析して判明した“高品質”なフィッシングメールの条件と、これに対抗するための心理的アプローチを組み込んだ4つの防御策を紹介します。
Excelの外部リンク無効化へ　Microsoftがセキュリティ強化に向けた新方針
Microsoftは2025年10月から、Excelにおいてブロック対象のファイル形式への外部リンクをデフォルトで無効化する仕様を段階的に導入する。業務フローへの影響を避けるため早期の対応が推奨されている。
「私はロボットではありません」をAIが突破？　使われたプロンプトとは
Redditでの投稿により、OpenAIのAIエージェントがCloudflareのアンチbot検証を突破した事例が注目されている。AIが既存のセキュリティ対策を無効化しつつあり、AIの進化が倫理的・実用的観点で重大な課題を突き付けている。
今後不満続出？　オンライン証券の不正アクセスへの金銭補償で「損」しないには
世間を大きく騒がせたオンライン証券会社に対する不正アクセス／不正取引被害。各社は対策に動くとともに、被害者に対する金銭補償を発表しました。ただ、その割合が問題で……。今回は補償の妥当性と個人が取るべき対策を考えていきます。