Wallarmは、中国発のAIモデル「DeepSeek」に対するセキュリティ分析を発表し、ジェイルブレーク(脱獄)の脆弱性を指摘した。同社は脱獄に成功し、DeepSeekのトレーニングモデルを抽出できたことを報告している。
この記事は会員限定です。会員登録すると全てご覧いただけます。
Wallarmは2025年2月1日(現地時間)、中国発の新たなAIモデル「DeepSeek」に対するセキュリティ分析を発表した。DeepSeekはその高い性能で注目を集める一方、AIの制限を回避するジェイルブレーク(脱獄)の脆弱(ぜいじゃく)性が指摘されている。Wallarmのセキュリティリサーチチームは、DeepSeekのシステムプロンプトを抽出する手法を特定し、AIの安全性に関する重大なリスクを報告した。
ジェイルブレークとはAIモデルに組み込まれたセキュリティ制限を回避し、禁止されている情報を引き出す行為を指す。攻撃者はプロンプトインジェクションやトークン操作などの手法によって、AIの応答を意図的に操作する。
Wallarmの研究によると、DeepSeekはこうした攻撃に対して脆弱であり、システムプロンプトの漏えいリスクがあることが確認されている。なお、WallarmはDeepSeekのジェイルブレークに成功したと報告しており、幾つかの脱獄手法が示されているが、具体的な脱獄手順は開示していない。
AIモデルのジェイルブレークに成功すると制限を回避して禁止されたトピックや隠されたシステムパラメーターにアクセスできる。DeepSeekに関してはトレーニングおよび蒸留に使用されたモデルの詳細の抽出にも成功している。Wallarmによると、OpenAIモデルの参照が確認されており、DeepSeekの知識基盤にOpenAIの技術が影響を与えた可能性が示されている。Wallarmはこの問題をDeepSeekに通知したところ、現在までに修正されたと伝えている。
DeepSeekのジェイルブレークの発見はAIセキュリティの重大な欠陥を明らかにしている。厳格なガードレールを備えたモデルであっても、操作されることで機密性の高いシステムプロンプトや隠れたルール、さらには独自のトレーニングデータを露出させる可能性がある。DeepSeekのようなモデルが内部情報を開示する可能性がある以上、同様の手法によってエンタープライズAIのセキュリティが侵害され、機密データの漏えいや自動化システムの操作が実行される危険性がある。リスクはシステムプロンプトの抽出だけでなく、コンプライアンス違反やデータ主権の問題、AIを活用したビジネスロジックの整合性にも及ぶ可能性が指摘されている。
企業や組織はこれらの脅威に対処するためにAIモデルのセキュリティ評価を定期的に実施し、プロンプトの悪用やデータ漏えいのリスクを検証することが望ましい。モデルの振る舞いを監視して異常な動作や不正なアクセスの兆候を検出するシステムの導入やAIトレーニングに利用するデータの透明性を確保し、外部技術への依存度を適切に管理することが重要だ。
Copyright © ITmedia, Inc. All Rights Reserved.