OpenAI、Webデータ収集クローラー「GPTBot」のブロック方法を説明

OpenAIは生成AIトレーニング用データをインターネット上のWebサイトから収集する自社製クローラー「GPTBot」をひっそり紹介し、Webオーナー向けにこのクローラーのブロック方法を説明した。

[ITmedia] PC用表示関連情報

LINE

Hatena

　米OpenAIは、Webサイト管理者が同社のWebクローラー「GPTBot」によるサイトのデータ収集を回避する方法を紹介した。紹介する文書に日付はないが、米AI専用オンラインメディアMaginativeなどが8月7日（現地時間）、文書を見つけて報じた。

日付のないGPTBotに関する文書

　GPTBotは、同社のAIモデルをトレーニングするために公開データを収集するためのWebクローラー。OpenAIはこの文書で、GPTBotのクローリングをブロックする手順を説明している。

　Webオーナーがrobots.txtにGPTBotを追加したり、IPアドレスを直接ブロックしたりしないと、ユーザーがWebサイトに入力するデータを含むWebサイトのデータがAIモデルのトレーニングデータとして収集される。

　ブロックしなくても、ペイウォールアクセスを必要とするソース、個人を特定できる情報を収集することが知られているソース、ポリシーに違反するテキストを含むソースは、データを削除するためにフィルタリングされるという。

　OpenAIがいつからGPTBotを使っているのかは不明だ。現行のChatGPTは2021年9月までの情報でトレーニングされている。過去にトレーニングに使われたデータについては遡って削除することはできない。

　OpenAIの「ChatGPT」や米Microsoftの「新しいBing」、米Googleの「Bard」などのチャットボットが紹介されて以来、生成AIのトレーニングに使うデータを「スクレイピング」することに対する懸念が高まっている。

　同日には米Zoomが「顧客の同意なしに」サービス上の音声、動画、テキストチャットのデータをAIモデルのトレーニングに使うことはないと説明した。