中国発の生成AI「DeepSeek」の脆弱性 Wallarmがジェイルブレークに成功:セキュリティニュースアラート
Wallarmは、中国発のAIモデル「DeepSeek」に対するセキュリティ分析を発表し、ジェイルブレーク(脱獄)の脆弱性を指摘した。同社は脱獄に成功し、DeepSeekのトレーニングモデルを抽出できたことを報告している。
Wallarmは2025年2月1日(現地時間)、中国発の新たなAIモデル「DeepSeek」に対するセキュリティ分析を発表した。DeepSeekはその高い性能で注目を集める一方、AIの制限を回避するジェイルブレーク(脱獄)の脆弱(ぜいじゃく)性が指摘されている。Wallarmのセキュリティリサーチチームは、DeepSeekのシステムプロンプトを抽出する手法を特定し、AIの安全性に関する重大なリスクを報告した。
DeepSeekの脱獄に成功 システムプロンプト抽出の脆弱性が発覚
ジェイルブレークとはAIモデルに組み込まれたセキュリティ制限を回避し、禁止されている情報を引き出す行為を指す。攻撃者はプロンプトインジェクションやトークン操作などの手法によって、AIの応答を意図的に操作する。
Wallarmの研究によると、DeepSeekはこうした攻撃に対して脆弱であり、システムプロンプトの漏えいリスクがあることが確認されている。なお、WallarmはDeepSeekのジェイルブレークに成功したと報告しており、幾つかの脱獄手法が示されているが、具体的な脱獄手順は開示していない。
AIモデルのジェイルブレークに成功すると制限を回避して禁止されたトピックや隠されたシステムパラメーターにアクセスできる。DeepSeekに関してはトレーニングおよび蒸留に使用されたモデルの詳細の抽出にも成功している。Wallarmによると、OpenAIモデルの参照が確認されており、DeepSeekの知識基盤にOpenAIの技術が影響を与えた可能性が示されている。Wallarmはこの問題をDeepSeekに通知したところ、現在までに修正されたと伝えている。
DeepSeekのジェイルブレークの発見はAIセキュリティの重大な欠陥を明らかにしている。厳格なガードレールを備えたモデルであっても、操作されることで機密性の高いシステムプロンプトや隠れたルール、さらには独自のトレーニングデータを露出させる可能性がある。DeepSeekのようなモデルが内部情報を開示する可能性がある以上、同様の手法によってエンタープライズAIのセキュリティが侵害され、機密データの漏えいや自動化システムの操作が実行される危険性がある。リスクはシステムプロンプトの抽出だけでなく、コンプライアンス違反やデータ主権の問題、AIを活用したビジネスロジックの整合性にも及ぶ可能性が指摘されている。
企業や組織はこれらの脅威に対処するためにAIモデルのセキュリティ評価を定期的に実施し、プロンプトの悪用やデータ漏えいのリスクを検証することが望ましい。モデルの振る舞いを監視して異常な動作や不正なアクセスの兆候を検出するシステムの導入やAIトレーニングに利用するデータの透明性を確保し、外部技術への依存度を適切に管理することが重要だ。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
ChatGPTにマルウェアを作らせる 新たな脱獄手法「Time Bandit」の詳細
ChatGPTの新たな脱獄手法「Time Bandit」が発見された。時間的混乱を利用することで、マルウェアの開発方法など、本来提供されるべきでない情報を引き出すことが可能とされている。
7-Zipに深刻な脆弱性 悪用でWindowsのセキュリティ機能「MoTW」を回避可能
7-Zipに深刻な脆弱性が見つかった。これを悪用すると、Windowsのセキュリティ機能「MoTW」(Mark-of-the-Web)を回避し、被害者のユーザーコンテキスト内で任意のコードを実行できるという。
「DNSよく分からん勢」に送る サブドメイン乗っ取り事案から考えるASMの本質
JPRSが「サブドメインの乗っ取り」に関する注意喚起を公開しました。これは非常に深刻な問題ですが、「DNS周辺はよく分からん」という人も多く、対策するには重い腰を上げなければならないのも事実。そんな人に向けてやるべきことをお伝えします。
Googleの認証システムに重大な欠陥 数百万のユーザーに影響する可能性
Googleの「Googleでログイン(Sign in with Google)」認証システムに重大な欠陥が見つかった。この欠陥を悪用すると、SlackやZoomなどのサービスに不正アクセスされる可能性がある。Google Workspaceユーザーは注意してほしい。