ITmedia NEWS > 企業・業界動向 >
ITmedia AI+ AI活用のいまが分かる

OpenAI、Webデータ収集クローラー「GPTBot」のブロック方法を説明

» 2023年08月08日 13時57分 公開
[ITmedia]

 米OpenAIは、Webサイト管理者が同社のWebクローラー「GPTBot」によるサイトのデータ収集を回避する方法を紹介した。紹介する文書に日付はないが、米AI専用オンラインメディアMaginativeなどが8月7日(現地時間)、文書を見つけて報じた。

 bot 日付のないGPTBotに関する文書

 GPTBotは、同社のAIモデルをトレーニングするために公開データを収集するためのWebクローラー。OpenAIはこの文書で、GPTBotのクローリングをブロックする手順を説明している。

 Webオーナーがrobots.txtにGPTBotを追加したり、IPアドレスを直接ブロックしたりしないと、ユーザーがWebサイトに入力するデータを含むWebサイトのデータがAIモデルのトレーニングデータとして収集される。

 ブロックしなくても、ペイウォールアクセスを必要とするソース、個人を特定できる情報を収集することが知られているソース、ポリシーに違反するテキストを含むソースは、データを削除するためにフィルタリングされるという。

 OpenAIがいつからGPTBotを使っているのかは不明だ。現行のChatGPTは2021年9月までの情報でトレーニングされている。過去にトレーニングに使われたデータについては遡って削除することはできない。

 OpenAIの「ChatGPT」や米Microsoftの「新しいBing」、米Googleの「Bard」などのチャットボットが紹介されて以来、生成AIのトレーニングに使うデータを「スクレイピング」することに対する懸念が高まっている。

 同日には米Zoomが「顧客の同意なしに」サービス上の音声、動画、テキストチャットのデータをAIモデルのトレーニングに使うことはないと説明した。

Copyright © ITmedia, Inc. All Rights Reserved.