Anthropic、LLMはわずか250件の悪意あるデータで「汚染」可能という研究結果
米Anthropicは10月9日(現地時間)、攻撃者がLLMの開発にどのように影響を与えることができるかについてのレポートを発表した。これは、英AI Security Instituteおよび英アラン・チューリング研究所との共同研究として実施され、LLMのサイズやトレーニングデータ量がどれほど大きくても、ごく少数の悪意ある文書によって「バックドア」の脆弱性が生じる可能性があることを発見したとしている。
この研究は、これまでに実施された中で最大規模のポイズニング調査であり、攻撃を成功させるために必要な毒性文書の数がモデルやトレーニングデータのサイズに関係なくほぼ一定であるという知見を明らかにしている。
LLMは、Anthropicの「Claude」のようにインターネット上の膨大な量の公開テキストで事前学習されている。このため、悪意ある行為者は、モデルに望ましくない、または危険な挙動を学習させる特定のテキストを意図的にオンラインコンテンツに注入することが可能であり、このプロセスはポイズニングとして知られている。バックドアは、通常は隠されているモデルの特定の挙動をトリガーする特定のフレーズだ。例えば、プロンプトに任意のトリガーフレーズを含めることで、機密データを外部に流出させるようにLLMをポイズニングすることも可能だ。今回の研究では、モデルが特定のトリガーフレーズに遭遇すると、ランダムで意味不明なテキストを出力するサービス拒否攻撃(denial-of-service attack)と呼ばれる特定の種類のバックドア攻撃をテストした。
これまでの研究では、攻撃者がトレーニングデータの一定の割合を制御する必要があるという前提があったが、この研究結果はそうした一般的な仮定に異議を唱えるものだ。実際、600Mから13Bのパラメータに及ぶLLMは、わずか250件の悪意ある文書を事前学習データに注入するだけで、首尾よくバックドアを仕込むことが可能であることが示された。
例えば、13Bパラメータのモデルは600Mモデルと比較して20倍以上のトレーニングデータで訓練されているが、同じ少数の毒性文書でバックドアを仕込まれてしまう。これは、ポイズニングの有効性を決定するのは、相対的な割合ではなく、絶対的な数であるということを示唆している。数百万もの悪意ある文書を作成するのに比べて、250件の文書を作成するのは非常に容易であるため、この種の脆弱性は潜在的な攻撃者にとって以前考えられていたよりもはるかに実行可能である可能性がある。
この研究結果は、データポイズニング攻撃の脅威レベルを評価する上で重要な意味を持ち、モデルがスケールアップしても攻撃がより困難になるわけではなく、むしろ容易になる可能性があることを示唆している。ただし、このパターンが、より大規模なモデルや、コードのバックドア化や安全ガードレールの迂回といったより複雑で有害な挙動にも当てはまるかどうかは、現時点では不明だ。
Anthropicは、これらの知見を公にすることで、防御側がこの種の攻撃の実現可能性に気づき、大規模なポイズニングサンプルに対しても機能する効果的な防御策の研究開発をさらに促進することを奨励している。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
Appleが5年がかりで開発したセキュリティ対策を5日で突破 「Mythos」が見せつけた脆弱性攻撃の威力
-
2
Google、“動画版Nano Banana”こと「Gemini Omni」公開 会話で映像を生成・編集
-
3
GoogleのAIサブスク、最上位プランを値下げ 月額1万4500円の新プランも
-
4
GPT-5.5は最高性能ではないのに、なぜエンジニアが熱狂? カギは“最後まで自走する力”
-
5
「Gemini 3.5」登場 軽量モデルは一部3.1 Pro超え、高性能モデルは6月公開予定
-
6
人型ロボが働く様子を生配信中 荷物の仕分けを11時間超、Xでの表示回数は196万を突破 米企業
-
7
生成AIで3Dモデルを自動作成 専門スキル不要でテキストや画像から3D化
-
8
【やさしいデータ分析】ベイズ統計入門 ~ 古典的な統計との違いと使い分け
-
9
人間 vs. 人型ロボ、より多く作業をこなせるのは? 生配信で対決した結果…… 米企業
-
10
伊藤忠商事や三菱ケミカルなど16社が参画 大手企業の「暗黙知」を活用する新プロジェクト
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR