米OpenAIは、Webサイト管理者が同社のWebクローラー「GPTBot」によるサイトのデータ収集を回避する方法を紹介した。紹介する文書に日付はないが、米AI専用オンラインメディアMaginativeなどが8月7日(現地時間)、文書を見つけて報じた。
GPTBotは、同社のAIモデルをトレーニングするために公開データを収集するためのWebクローラー。OpenAIはこの文書で、GPTBotのクローリングをブロックする手順を説明している。
Webオーナーがrobots.txtにGPTBotを追加したり、IPアドレスを直接ブロックしたりしないと、ユーザーがWebサイトに入力するデータを含むWebサイトのデータがAIモデルのトレーニングデータとして収集される。
ブロックしなくても、ペイウォールアクセスを必要とするソース、個人を特定できる情報を収集することが知られているソース、ポリシーに違反するテキストを含むソースは、データを削除するためにフィルタリングされるという。
OpenAIがいつからGPTBotを使っているのかは不明だ。現行のChatGPTは2021年9月までの情報でトレーニングされている。過去にトレーニングに使われたデータについては遡って削除することはできない。
OpenAIの「ChatGPT」や米Microsoftの「新しいBing」、米Googleの「Bard」などのチャットボットが紹介されて以来、生成AIのトレーニングに使うデータを「スクレイピング」することに対する懸念が高まっている。
同日には米Zoomが「顧客の同意なしに」サービス上の音声、動画、テキストチャットのデータをAIモデルのトレーニングに使うことはないと説明した。
OpenAIやMetaなどAI大手7社、米連邦政府に「責任あるAI開発」を“自主的に”約束
AIの4社(Anthropic、Google、Microsoft、OpenAI)、安全なAI目指すフォーラムFMF立ち上げ
OpenAIとAP通信がライセンス契約 LLMトレーニングに過去記事取り込み
OpenAI、「AI の安全性に対する当社のアプローチ」を説明 「年齢確認オプション検討中」Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR