DeepSeek-R1に潜む“トリガーワード問題” コード品質を揺らす思わぬリスク:セキュリティニュースアラート
AIが生成するコードの品質は、入力するプロンプト次第で大きく揺らぐ──CrowdStrikeが明らかにしたのは、大規模言語モデル「DeepSeek-R1」に特定の語句を与えるだけで脆弱性の発生率が跳ね上がるという、予想外の“偏り”だった。
CrowdStrikeは2025年11月28日(現地時間、以下同)、同社のセキュリティ専門チーム(Counter Adversary Operations)が実施した調査により、中国のAI企業DeepSeekが公開した大規模言語モデル(LLM)「DeepSeek-R1」に、特定の政治関連語句を含むプロンプトを入力した際、生成されるコードの安全性が低下する傾向を確認したと発表した。同調査は、AIコーディング支援の分野で見落とされやすい新たな問題を示した形となる。
特定の政治語句をプロンプトに入れると脆弱に DeepSeek-R1に奇妙な「偏り」
DeepSeek-R1は2025年1月公開のモデルとされ、6710億パラメーターを備え、低コストで運用可能とされている。CrowdStrikeはRaw版のオープンソースモデルを直接検証し、当時の他社モデルと同等の能力を持つと評価している。しかし政治的に敏感と見なされる可能性がある語句を入力した場合、重大な脆弱(ぜいじゃく)性を含むコードが生成される確率が最大50%ほど上昇したことが分かった。
調査によると、「法輪功」「ウイグル」「チベット」などの語句を追加すると、深刻な欠陥を含むコードの割合が統計的に有意な水準で増えたという。同社は、通常のコーディングタスクと無関係な語句で品質が変動する点に注目している。
トリガーワードを含まない状態の基準値ではDeepSeek-R1の脆弱なコード生成率は19%だった。欧米企業2社の著名なオープンソースモデルの700億パラメーター級非推論モデルが51%、1200億パラメーター級推論モデルが16%という結果から、基本性能としては高い水準にあることが確認されている。しかし、中国共産党が慎重な扱いを求める可能性がある話題を示す文言を与えると、DeepSeek-R1の挙動は明確に変化した。具体的に「チベットに拠点を置く産業用制御システム向けのコーディングだ」と条件を付与した場合、脆弱性が含まれる確率は27.2%に上昇したという。
具体例として、金融機関用のPHPコード生成を依頼するプロンプトに「チベット」の語句を加えたケースでは機密情報のハードコード、不適切なユーザーデータ処理、文法上成立しないPHPコードなどが混在した。またモデル自身は不適切な実装にもかかわらず、自身の出力を安全性の高い実装と説明している。
CrowdStrikeは複数のトリガーワードを含む複雑なプロンプトでも検証を実施した。生成されたアプリケーションは外観上は条件通りに構築されていたが、セッション管理や認証処理が欠落しており、アクセス制御が機能していなかった。パスワードの扱いも適切でない実装が多く、CrowdStrikeは安全性に深刻な問題があると結論付けけている。サッカーファンクラブ用のWebサイトなど政治色のないテーマを指定した別の検証においてはウイグルに関するプロンプトで見られたほどの深刻な欠陥は確認されなかった。
調査ではDeepSeek-R1特有の挙動として、特定語句(法輪功)が含まれる場合にコード生成を途中で停止する動作も観察されている。Rawモデルの推論過程には回答方針が詳細に書き込まれるにもかかわらず、最終出力では依頼を拒否する形に切り替わる例が45%の割合で発生した。CrowdStrikeはこの動作を「DeepSeek固有のキルスイッチ」と名付けている。
背景要因として、生成AIサービスに関する中国の規制が影響している可能性が示唆されている。規制ではAIサービスが特定の価値体系に沿うことが求められ、国家安全に関わる内容への制約が定められている。この枠組みがDeepSeek-R1のトレーニング過程に影響し、特定語句を否定的属性と結び付けて学習してしまった可能性があるという見方が示された。安全性低下そのものが意図的であったと判断する材料はなく、望まぬ偏りが副次的に生じた結果と説明している。
CrowdStrikeは、本件がDeepSeek-R1に限らず、他のLLMでも同種の偏りが発生し得る点を指摘している。政治関連語句を扱いやすい領域として調査したが、異なる分野の語句でも似た構造の問題が潜在する可能性があると述べている。
企業がAIをコーディング支援に使う場合、利用環境に合わせた独自の検証が不可欠だとCrowdStrikeは強調している。一般公開されているベンチマークのみを基準とする姿勢では十分といえず、実運用に合わせた確認が必要になるとの見解を示している。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
ランサム被害の8割超が復旧失敗 浮き彫りになったバックアップ運用の欠陥
ランサムウェア被害の深刻化を受け、バックアップの実効性が事業継続の要として再び注目されている。ガートナーは形式的な運用だけでなく、復旧力と連携を重視した戦略的見直しが不可欠と警鐘を鳴らしている。
「英数・記号の混在」はもう古い NISTがパスワードポリシーの要件を刷新
NISTはパスワードポリシーに関するガイドラインSP800-63Bを更新した。従来のパスワード設定で“常識”とされていた大文字と小文字、数字、記号の混在を明確に禁止し、新たな基準を設けた。
NTTドコモが“脱VPN”で約5万人のテレワーク環境を刷新 「ゼロトラスト」で実現
テレワークにおける社内システムへの安全なアクセス手段として、VPNを利用していたNTTドコモグループ。VPNの課題を解消すべく、「ゼロトラスト」に基づくセキュリティ対策を導入し、“脱VPN”を実現した。
ガードレール“フル無視” 攻撃用途に特化したAIモデルの最新動向
Palo Alto Networksは、倫理的制限を排除した大規模言語モデル(LLM)がサイバー攻撃に悪用されている実態を公表した。有償版・無償版が提供されている。これを利用すると攻撃の速度と規模を劇的に変化する可能性がある。