AIの無断学習は絶対許さない──Webクローラーを“出口のない落とし穴”に閉じ込めるプログラム、海外ユーザーが公開
Webを巡回してAIモデルの学習に使う情報をかき集めるクローラーの横行に対し、反発が強まっている。Webサイト側で対策を講じてもかわされてしまう現状に対抗して、ある海外ユーザーが迷惑クローラーを“出口のない落とし穴”に閉じ込めて撃退するプログラム「Nepenthes」を公開した。
Nepenthesの名称は、昆虫を袋の中に閉じ込めて捕食する食虫植物「ウツボカズラ」(ネペンテス)にちなむ。これをひそかにWebサイトに仕掛けておけば、Webクローラーによるコンテンツ収集を阻止できるという。さらに「攻撃的な」オプション機能を有効にすれば、クローラーに時間と処理能力を延々と浪費させ、AIモデル学習用データの汚染を狙うこともできるという。
同ツールがベースとしているのは、サイバーセキュリティ業界で迷惑メール対策として使われる「ターピット」と呼ばれる手法。ターピットは「タール穴」の意味で、Nepenthesはこの手法を応用しWebクローラーを捕らえ、タール穴に陥れる。「ターゲットはクローラ―だが、実際にはウツボカズラのように、中に入ったものは何であれ食べてしまう」(公開ページより)
Nepenthesは、大量のリンクを仕込んだWebページを連続してエンドレスに生成し続けることで機能する。Webクローラーはページを読み込みながらそこに張られたリンクもたどっているが、Nepenthesが生成したページのリンクは全てターピットに戻る仕組みで、いわば堂々巡りの迷路を形成する。Webページの読み込み速度は、クローラーに時間を浪費させる狙いで、意図的に遅くしてあるという。
AIデータ汚染を狙う“攻撃的オプション”
さらに攻撃的な使い方もできる。「馬力と帯域幅を消費する余裕があり、AIモデルにも消費させたい場合」は、オプション機能「Markov」を有効にすると、でたらめな内容のページを無限に生成して、クローラーに収集させられる。狙いは「ディスクスペースが許す限りのでたらめを吸い込ませて窒息死させる」ことという。無意味な情報をLLM用に収集させることで「うまくいけばモデルの崩壊を加速させられる」という作者の意図がこもる。
「LLM収集ツールは執拗(しつよう)で残酷だ」と作者は言う。「このソフトウェアを使えばそれを食い止められるかもしれないが、それは彼らが探しているものを、際限なく提供することによって機能する」。ただし、特にMarkovモジュールを有効にした場合、CPUには継続的にかなりの負荷がかかることが予想される。
Nepenthesのページではこうも警告している。「これは有害な動作を引き起こす意図でわざと悪意を持たせたソフトウェアであり、自分のしていることに完全に納得できなければ、導入してはいけない」
また現時点でAIクローラーと、検索目的でサイトをインデックス化するWebクローラーに違いがないことから「このソフトウェアを適用したWebサイトは、恐らく全ての検索結果から消滅するだろう」との断り書きもある。
拒否の意思表示を無視したAIクローラーに「毒を盛る」
Nepenthesの作者が米メディア「Ars Technica」に語ったところによれば、Nepenthesはこれまでのところ、主要なWebクローラーを全て閉じこめることに成功しており、脱出できたのは米OpenAIのクローラーだけだった。
コンテンツをクローラーに収集されないように制御するには、Webサイトに「robots.txt」を設定する方法もある。しかし、この指示を無視したり、迂回したりするAIクローラーも横行しているという。
そうしたクローラーに対し、AIモデルに「毒」を盛るポイズニング攻撃で対抗しようとするプログラムはNepenthesにとどまらない。AIクローラーが収集するデータを汚染する狙いで「Iocaine」と名付けたターピットを作成した開発者は、貴重なコンテンツをAIクローラーから守る役に立ちたいと語り、ポイズニング攻撃は多ければ多いほど楽しいとArs Technicaにコメントしている。
Copyright © ITmedia, Inc. All Rights Reserved.
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
「ポンコツ」と呼ばれたM365 Copilotの逆転劇、GPT-5が転換点 活用の秘訣は“脱・プロンプト職人”
-
2
人間 vs. 人型ロボ、より多く作業をこなせるのは? 生配信で対決した結果…… 米企業
-
3
キオクシア社長「記録的な増収増益」 3カ月の売上収益1兆円、純利益は2990%増 好決算の背景は
-
4
「AIデータセンターの電力需要が急増」はホント? 発電大手Jパワー社長が明かした“報道との温度差”
-
5
伊藤忠商事や三菱ケミカルなど16社が参画 大手企業の「暗黙知」を活用する新プロジェクト
-
6
生成AIで3Dモデルを自動作成 専門スキル不要でテキストや画像から3D化
-
7
NEC社長が説く AI時代と新たな安全保障環境の到来で「ITサービスはこう変わる」
-
8
OpenAI、「ChatGPT」に個人向け資産管理機能 金融口座と連携
-
9
「邪魔すぎ」――LINE入力欄の“新AI機能”が不評 消し方は?
-
10
Python 3.15に追加されるlazy importと内包表記でのアンパッキングについて調べてみた
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR