AIの無断学習は絶対許さない──Webクローラーを“出口のない落とし穴”に閉じ込めるプログラム、海外ユーザーが公開
Webを巡回してAIモデルの学習に使う情報をかき集めるクローラーの横行に対し、反発が強まっている。Webサイト側で対策を講じてもかわされてしまう現状に対抗して、ある海外ユーザーが迷惑クローラーを“出口のない落とし穴”に閉じ込めて撃退するプログラム「Nepenthes」を公開した。
Nepenthesの名称は、昆虫を袋の中に閉じ込めて捕食する食虫植物「ウツボカズラ」(ネペンテス)にちなむ。これをひそかにWebサイトに仕掛けておけば、Webクローラーによるコンテンツ収集を阻止できるという。さらに「攻撃的な」オプション機能を有効にすれば、クローラーに時間と処理能力を延々と浪費させ、AIモデル学習用データの汚染を狙うこともできるという。
同ツールがベースとしているのは、サイバーセキュリティ業界で迷惑メール対策として使われる「ターピット」と呼ばれる手法。ターピットは「タール穴」の意味で、Nepenthesはこの手法を応用しWebクローラーを捕らえ、タール穴に陥れる。「ターゲットはクローラ―だが、実際にはウツボカズラのように、中に入ったものは何であれ食べてしまう」(公開ページより)
Nepenthesは、大量のリンクを仕込んだWebページを連続してエンドレスに生成し続けることで機能する。Webクローラーはページを読み込みながらそこに張られたリンクもたどっているが、Nepenthesが生成したページのリンクは全てターピットに戻る仕組みで、いわば堂々巡りの迷路を形成する。Webページの読み込み速度は、クローラーに時間を浪費させる狙いで、意図的に遅くしてあるという。
AIデータ汚染を狙う“攻撃的オプション”
さらに攻撃的な使い方もできる。「馬力と帯域幅を消費する余裕があり、AIモデルにも消費させたい場合」は、オプション機能「Markov」を有効にすると、でたらめな内容のページを無限に生成して、クローラーに収集させられる。狙いは「ディスクスペースが許す限りのでたらめを吸い込ませて窒息死させる」ことという。無意味な情報をLLM用に収集させることで「うまくいけばモデルの崩壊を加速させられる」という作者の意図がこもる。
「LLM収集ツールは執拗(しつよう)で残酷だ」と作者は言う。「このソフトウェアを使えばそれを食い止められるかもしれないが、それは彼らが探しているものを、際限なく提供することによって機能する」。ただし、特にMarkovモジュールを有効にした場合、CPUには継続的にかなりの負荷がかかることが予想される。
Nepenthesのページではこうも警告している。「これは有害な動作を引き起こす意図でわざと悪意を持たせたソフトウェアであり、自分のしていることに完全に納得できなければ、導入してはいけない」
また現時点でAIクローラーと、検索目的でサイトをインデックス化するWebクローラーに違いがないことから「このソフトウェアを適用したWebサイトは、恐らく全ての検索結果から消滅するだろう」との断り書きもある。
拒否の意思表示を無視したAIクローラーに「毒を盛る」
Nepenthesの作者が米メディア「Ars Technica」に語ったところによれば、Nepenthesはこれまでのところ、主要なWebクローラーを全て閉じこめることに成功しており、脱出できたのは米OpenAIのクローラーだけだった。
コンテンツをクローラーに収集されないように制御するには、Webサイトに「robots.txt」を設定する方法もある。しかし、この指示を無視したり、迂回したりするAIクローラーも横行しているという。
そうしたクローラーに対し、AIモデルに「毒」を盛るポイズニング攻撃で対抗しようとするプログラムはNepenthesにとどまらない。AIクローラーが収集するデータを汚染する狙いで「Iocaine」と名付けたターピットを作成した開発者は、貴重なコンテンツをAIクローラーから守る役に立ちたいと語り、ポイズニング攻撃は多ければ多いほど楽しいとArs Technicaにコメントしている。
Copyright © ITmedia, Inc. All Rights Reserved.
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
Anthropic、最上位「ミュトス」級モデルを一般提供 悪用防ぐ保護機能を備えた「Claude Fable 5」
-
2
政府・著名人のInstagramアカウントが次々に乗っ取り被害 原因はMetaのAIアシスタント?
-
3
Google「AI Plus」4割値下げ、月725円に ストレージ倍増、価格攻勢でシェア拡大へ
-
4
個人向け「Gemini」値下げ 「Google AI Plus」が月額1200円→725円に ストレージも倍増
-
5
Apple、EU当局を批判「どの解決策も受け入れず」 「Siri AI」EUのiPhone・iPadで提供見送り
-
6
インド人学生、トランプ米政権で「日本の魅力向上」8割 やりたい仕事「データサイエンス」「AIエンジニア」抑えて1位は?
-
7
「猫も杓子もAI」な現状は今後も続くのか?【後編】AI時代に必要な3つの検討事項
-
8
東大松尾研が「LLM講座 基礎編」の講義資料を無料公開 期間限定で
-
9
AIに使われる設計者、AIを使う設計者
-
10
AI合成写真で近大入試の確認をすりぬけ、替え玉受験対策に「生体認証システム」は必要か
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR