中国AI3社がClaudeに大規模蒸留 Anthropicが指摘する「重大なリスク」AIニュースピックアップ

AnthropicのAI「Claude」が大規模な蒸留攻撃を受けた。中国企業3社による1600万回超の不正抽出と、巧妙な回避ネットワークの実態とは。

» 2026年02月25日 08時00分 公開

この記事は会員限定です。会員登録すると全てご覧いただけます。

 Anthropicは2026年2月23日(現地時間)、同社の大規模言語モデル(LLM)「Claude」から能力を不正に抽出する大規模な蒸留攻撃を確認したと発表した。

 中国のAI研究所またはAI開発企業のDeepSeek、Moonshot、MiniMaxの3社が約2万4000件の不正アカウントを通じて1600万回超の対話を生成し、利用規約や地域制限に違反していたという。同社は、これらの企業による行為が米国の輸出規制の効果を減退させていると指摘した。

Claude狙う1600万回の不正対話 組織的「蒸留攻撃」の実態

 蒸留は、高性能モデルの出力を使って小型モデルを訓練する手法で、各社が自社モデルの軽量版開発に活用する正当な技術でもある。一方、競合他社のモデルから能力を抽出すれば、独自開発より短期間かつ低コストで性能向上が可能になる。Anthropicは、今回の事案は正規利用の範囲を逸脱し、意図的な能力取得を目的としたものだと説明した。

 Anthropicは各社の手口も明らかにした。

 DeepSeekは15万回超の対話で推論能力や報酬モデル用データの生成を狙い、内部思考過程を書き出させる指示を大量投入した他、「党の指導者や反体制派」に関する質問など、中国国内で政治的に敏感なクエリに対し、検閲に抵触しない回答バリエーションを生成させて自社モデルの調整に利用していた。

 Moonshotは340万回超の対話でコンピュータビジョン(画像認識)やエージェント機能、コーディング能力の抽出を試みた。MiniMaxは1300万回超の対話を行い、新モデル公開前の段階で検知されたという。Anthropicが新モデルを公開すると、24時間以内に取得対象を切り替える動きも確認された。

 アクセス経路には「ハイドラ・クラスター」(Hydra Cluster)と呼ばれる、単一障害点を持たない分散型ネットワークが使われた。商用プロキシを介して多数の不正アカウントを束ねるネットワークでAPIに接続し、停止措置を回避していた。1つのネットワークで2万件超の不正アカウントを同時運用した例もあった。

Anthropicが指摘する「安全保障上の懸念」

 同社は国家安全保障上の懸念も示した。米企業のモデルには生物兵器開発や悪意あるサイバー活動を防ぐ安全対策が組み込まれているが、不正蒸留で構築されたモデルにはこうした対策が十分に反映されない恐れがある。保護機能が欠落したモデルが軍事や監視用途に組み込まれれば、サイバー攻撃や大規模監視に利用される危険があると警告した。

 蒸留攻撃は米国の輸出規制の実効性にも影響する。外形上は急速な技術進展に見えても、実際には米国製モデルから抽出した能力に依存している可能性があると指摘。大規模抽出には高性能半導体の利用が必要であり、規制は直接的な学習だけでなく不正蒸留の規模抑制にも資するとの見解を示した。

 Anthropicは検知用分類器や行動分析、アカウント確認の厳格化、業界や当局との情報共有などの対策を実行するとした。製品やAPIレベルでの対策強化も図る。単独企業での対処には限界があるとして、業界全体と政策当局の連携を呼びかけている。

Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ

注目のテーマ

あなたにおすすめの記事PR