メディア
ITmedia AI+ >

AIの無断学習は絶対許さない──Webクローラーを“出口のない落とし穴”に閉じ込めるプログラム、海外ユーザーが公開

» 2025年02月06日 12時00分 公開
[鈴木聖子ITmedia]

 Webを巡回してAIモデルの学習に使う情報をかき集めるクローラーの横行に対し、反発が強まっている。Webサイト側で対策を講じてもかわされてしまう現状に対抗して、ある海外ユーザーが迷惑クローラーを“出口のない落とし穴”に閉じ込めて撃退するプログラム「Nepenthes」を公開した。

食虫植物「ウツボカズラ」由来のクローラー対策プログラム「Nepenthes」

 Nepenthesの名称は、昆虫を袋の中に閉じ込めて捕食する食虫植物「ウツボカズラ」(ネペンテス)にちなむ。これをひそかにWebサイトに仕掛けておけば、Webクローラーによるコンテンツ収集を阻止できるという。さらに「攻撃的な」オプション機能を有効にすれば、クローラーに時間と処理能力を延々と浪費させ、AIモデル学習用データの汚染を狙うこともできるという。

 同ツールがベースとしているのは、サイバーセキュリティ業界で迷惑メール対策として使われる「ターピット」と呼ばれる手法。ターピットは「タール穴」の意味で、Nepenthesはこの手法を応用しWebクローラーを捕らえ、タール穴に陥れる。「ターゲットはクローラ―だが、実際にはウツボカズラのように、中に入ったものは何であれ食べてしまう」(公開ページより)

Nepenthesの公開ページ

 Nepenthesは、大量のリンクを仕込んだWebページを連続してエンドレスに生成し続けることで機能する。Webクローラーはページを読み込みながらそこに張られたリンクもたどっているが、Nepenthesが生成したページのリンクは全てターピットに戻る仕組みで、いわば堂々巡りの迷路を形成する。Webページの読み込み速度は、クローラーに時間を浪費させる狙いで、意図的に遅くしてあるという。

AIデータ汚染を狙う“攻撃的オプション”

 さらに攻撃的な使い方もできる。「馬力と帯域幅を消費する余裕があり、AIモデルにも消費させたい場合」は、オプション機能「Markov」を有効にすると、でたらめな内容のページを無限に生成して、クローラーに収集させられる。狙いは「ディスクスペースが許す限りのでたらめを吸い込ませて窒息死させる」ことという。無意味な情報をLLM用に収集させることで「うまくいけばモデルの崩壊を加速させられる」という作者の意図がこもる。

 「LLM収集ツールは執拗(しつよう)で残酷だ」と作者は言う。「このソフトウェアを使えばそれを食い止められるかもしれないが、それは彼らが探しているものを、際限なく提供することによって機能する」。ただし、特にMarkovモジュールを有効にした場合、CPUには継続的にかなりの負荷がかかることが予想される。

 Nepenthesのページではこうも警告している。「これは有害な動作を引き起こす意図でわざと悪意を持たせたソフトウェアであり、自分のしていることに完全に納得できなければ、導入してはいけない」

 また現時点でAIクローラーと、検索目的でサイトをインデックス化するWebクローラーに違いがないことから「このソフトウェアを適用したWebサイトは、恐らく全ての検索結果から消滅するだろう」との断り書きもある。

拒否の意思表示を無視したAIクローラーに「毒を盛る」

 Nepenthesの作者が米メディア「Ars Technica」に語ったところによれば、Nepenthesはこれまでのところ、主要なWebクローラーを全て閉じこめることに成功しており、脱出できたのは米OpenAIのクローラーだけだった。

 コンテンツをクローラーに収集されないように制御するには、Webサイトに「robots.txt」を設定する方法もある。しかし、この指示を無視したり、迂回したりするAIクローラーも横行しているという。

 そうしたクローラーに対し、AIモデルに「毒」を盛るポイズニング攻撃で対抗しようとするプログラムはNepenthesにとどまらない。AIクローラーが収集するデータを汚染する狙いで「Iocaine」と名付けたターピットを作成した開発者は、貴重なコンテンツをAIクローラーから守る役に立ちたいと語り、ポイズニング攻撃は多ければ多いほど楽しいとArs Technicaにコメントしている。

Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ