AIの無断学習は絶対許さない──Webクローラーを“出口のない落とし穴”に閉じ込めるプログラム、海外ユーザーが公開
Webを巡回してAIモデルの学習に使う情報をかき集めるクローラーの横行に対し、反発が強まっている。ある海外ユーザーが迷惑クローラーを“出口のない落とし穴”に閉じ込めて撃退するプログラム「Nepenthes」を公開した。
Webを巡回してAIモデルの学習に使う情報をかき集めるクローラーの横行に対し、反発が強まっている。Webサイト側で対策を講じてもかわされてしまう現状に対抗して、ある海外ユーザーが迷惑クローラーを“出口のない落とし穴”に閉じ込めて撃退するプログラム「Nepenthes」を公開した。
Nepenthesの名称は、昆虫を袋の中に閉じ込めて捕食する食虫植物「ウツボカズラ」(ネペンテス)にちなむ。これをひそかにWebサイトに仕掛けておけば、Webクローラーによるコンテンツ収集を阻止できるという。さらに「攻撃的な」オプション機能を有効にすれば、クローラーに時間と処理能力を延々と浪費させ、AIモデル学習用データの汚染を狙うこともできるという。
同ツールがベースとしているのは、サイバーセキュリティ業界で迷惑メール対策として使われる「ターピット」と呼ばれる手法。ターピットは「タール穴」の意味で、Nepenthesはこの手法を応用しWebクローラーを捕らえ、タール穴に陥れる。「ターゲットはクローラ―だが、実際にはウツボカズラのように、中に入ったものは何であれ食べてしまう」(公開ページより)
Nepenthesは、大量のリンクを仕込んだWebページを連続してエンドレスに生成し続けることで機能する。Webクローラーはページを読み込みながらそこに張られたリンクもたどっているが、Nepenthesが生成したページのリンクは全てターピットに戻る仕組みで、いわば堂々巡りの迷路を形成する。Webページの読み込み速度は、クローラーに時間を浪費させる狙いで、意図的に遅くしてあるという。
AIデータ汚染を狙う“攻撃的オプション”
さらに攻撃的な使い方もできる。「馬力と帯域幅を消費する余裕があり、AIモデルにも消費させたい場合」は、オプション機能「Markov」を有効にすると、でたらめな内容のページを無限に生成して、クローラーに収集させられる。狙いは「ディスクスペースが許す限りのでたらめを吸い込ませて窒息死させる」ことという。無意味な情報をLLM用に収集させることで「うまくいけばモデルの崩壊を加速させられる」という作者の意図がこもる。
「LLM収集ツールは執拗(しつよう)で残酷だ」と作者は言う。「このソフトウェアを使えばそれを食い止められるかもしれないが、それは彼らが探しているものを、際限なく提供することによって機能する」。ただし、特にMarkovモジュールを有効にした場合、CPUには継続的にかなりの負荷がかかることが予想される。
Nepenthesのページではこうも警告している。「これは有害な動作を引き起こす意図でわざと悪意を持たせたソフトウェアであり、自分のしていることに完全に納得できなければ、導入してはいけない」
また現時点でAIクローラーと、検索目的でサイトをインデックス化するWebクローラーに違いがないことから「このソフトウェアを適用したWebサイトは、恐らく全ての検索結果から消滅するだろう」との断り書きもある。
拒否の意思表示を無視したAIクローラーに「毒を盛る」
Nepenthesの作者が米メディア「Ars Technica」に語ったところによれば、Nepenthesはこれまでのところ、主要なWebクローラーを全て閉じこめることに成功しており、脱出できたのは米OpenAIのクローラーだけだった。
コンテンツをクローラーに収集されないように制御するには、Webサイトに「robots.txt」を設定する方法もある。しかし、この指示を無視したり、迂回したりするAIクローラーも横行しているという。
そうしたクローラーに対し、AIモデルに「毒」を盛るポイズニング攻撃で対抗しようとするプログラムはNepenthesにとどまらない。AIクローラーが収集するデータを汚染する狙いで「Iocaine」と名付けたターピットを作成した開発者は、貴重なコンテンツをAIクローラーから守る役に立ちたいと語り、ポイズニング攻撃は多ければ多いほど楽しいとArs Technicaにコメントしている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
AIが生成する画像を「ネコ」にするサイバー攻撃 絵師らを守る技術「Nightshade」 米シカゴ大が開発
米シカゴ大学に所属する研究者らは、生成AIモデルの無断学習を抑止するために、学習されても予期せぬ動作をAIモデルに生成させる毒入りデータに画像を変換するツールを提案した研究報告を発表した。
ソフトバンクと提携のPerplexity、「記事を盗用した」とForbesが非難
AI検索の新興企業で先日ソフトバンクとの提携を発表したPerplexityについて、ForbesとWiredが記事を盗用されたとしている。ForbesはCEOに対し、誤解を招く記事を削除するよう求める書簡を送ったと報じられた。
「AIに毒を盛る」──学習用データを改ざんし、AIモデルをサイバー攻撃 Googleなどが脆弱性を発表
Google、ETH Zurich、NVIDIA、Robust Intelligenceに所属する研究者らは、学習用データセットの一部を改ざんし、それらを学習した機械学習モデルを攻撃する手法を提案した研究報告を発表した。
「もし企業が生成AIを悪用したら……」──中古車販売・デカスギモーターの場合 内部不正を防ぐには
生成AIの活用方法を見誤り、他者に迷惑を掛けてしまう事例が発生している。そこで今回は「企業での生成AIの悪用例」について“架空の”中古車販売業者である「デカスギモーター」を舞台に考える。
「DeepSeekショック」とは何だったのか? 2025年、AI開発の最新事情を解説
1月27日に株式市場を襲った「DeepSeekショック」。中国のAI開発企業DeepSeekが開発した、低コストながらも高性能な生成AIモデルをきっかけに、米国の株式市場においてハイテク株が下落した。なぜこのような株価の急落が起きたのか。

