Anthropic、LLMはわずか250件の悪意あるデータで「汚染」可能という研究結果
米Anthropicは10月9日(現地時間)、攻撃者がLLMの開発にどのように影響を与えることができるかについてのレポートを発表した。これは、英AI Security Instituteおよび英アラン・チューリング研究所との共同研究として実施され、LLMのサイズやトレーニングデータ量がどれほど大きくても、ごく少数の悪意ある文書によって「バックドア」の脆弱性が生じる可能性があることを発見したとしている。
この研究は、これまでに実施された中で最大規模のポイズニング調査であり、攻撃を成功させるために必要な毒性文書の数がモデルやトレーニングデータのサイズに関係なくほぼ一定であるという知見を明らかにしている。
LLMは、Anthropicの「Claude」のようにインターネット上の膨大な量の公開テキストで事前学習されている。このため、悪意ある行為者は、モデルに望ましくない、または危険な挙動を学習させる特定のテキストを意図的にオンラインコンテンツに注入することが可能であり、このプロセスはポイズニングとして知られている。バックドアは、通常は隠されているモデルの特定の挙動をトリガーする特定のフレーズだ。例えば、プロンプトに任意のトリガーフレーズを含めることで、機密データを外部に流出させるようにLLMをポイズニングすることも可能だ。今回の研究では、モデルが特定のトリガーフレーズに遭遇すると、ランダムで意味不明なテキストを出力するサービス拒否攻撃(denial-of-service attack)と呼ばれる特定の種類のバックドア攻撃をテストした。
これまでの研究では、攻撃者がトレーニングデータの一定の割合を制御する必要があるという前提があったが、この研究結果はそうした一般的な仮定に異議を唱えるものだ。実際、600Mから13Bのパラメータに及ぶLLMは、わずか250件の悪意ある文書を事前学習データに注入するだけで、首尾よくバックドアを仕込むことが可能であることが示された。
例えば、13Bパラメータのモデルは600Mモデルと比較して20倍以上のトレーニングデータで訓練されているが、同じ少数の毒性文書でバックドアを仕込まれてしまう。これは、ポイズニングの有効性を決定するのは、相対的な割合ではなく、絶対的な数であるということを示唆している。数百万もの悪意ある文書を作成するのに比べて、250件の文書を作成するのは非常に容易であるため、この種の脆弱性は潜在的な攻撃者にとって以前考えられていたよりもはるかに実行可能である可能性がある。
この研究結果は、データポイズニング攻撃の脅威レベルを評価する上で重要な意味を持ち、モデルがスケールアップしても攻撃がより困難になるわけではなく、むしろ容易になる可能性があることを示唆している。ただし、このパターンが、より大規模なモデルや、コードのバックドア化や安全ガードレールの迂回といったより複雑で有害な挙動にも当てはまるかどうかは、現時点では不明だ。
Anthropicは、これらの知見を公にすることで、防御側がこの種の攻撃の実現可能性に気づき、大規模なポイズニングサンプルに対しても機能する効果的な防御策の研究開発をさらに促進することを奨励している。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
え、21日で37テラも? 高性能SSDを食いつぶす「あのAIツール」にご用心:886th Lap
-
2
農水省の“クソダサ”ポスター話題 「AIよりよっぽど良い」の声も 担当者に狙いを聞いた
-
3
AIに「相手に電気ショックを与えろ」と命じ続けたらボタンを押すのか? 11のLLMで“ミルグラム実験” 抵抗できたのは……
-
4
復活した「Fable 5」 米政府からのオーダーに対して、Anthropicはどう対策したのか
-
5
ソフトウェアエンジニアの仕事は「ループを書くこと」になる 内側ループと外側ループ(ハーネス)入門
-
6
Anthropicの営業はAIエージェントをこう使う! 日本法人メンバーが明かす手の内
-
7
AIで“ゲームキャラの出産二次創作”を何千回と生成する人も……ChatGPTの会話57万件から見えたヘビーな利用実態
-
8
光接続の標準規格「OCI」対応シリコン、GFが27年に投入
-
9
人型ロボットが工場で稼働する様子を6日間生配信、作業成功率99.99%をうたう 中国メーカー
-
10
「ねこ」検索で「手押し一輪車」表示――モノタロウが守った、生成AIに“譲れない”購買体験
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR