OpenAI、Webデータ収集クローラー「GPTBot」のブロック方法を説明
OpenAIは生成AIトレーニング用データをインターネット上のWebサイトから収集する自社製クローラー「GPTBot」をひっそり紹介し、Webオーナー向けにこのクローラーのブロック方法を説明した。
米OpenAIは、Webサイト管理者が同社のWebクローラー「GPTBot」によるサイトのデータ収集を回避する方法を紹介した。紹介する文書に日付はないが、米AI専用オンラインメディアMaginativeなどが8月7日(現地時間)、文書を見つけて報じた。
GPTBotは、同社のAIモデルをトレーニングするために公開データを収集するためのWebクローラー。OpenAIはこの文書で、GPTBotのクローリングをブロックする手順を説明している。
Webオーナーがrobots.txtにGPTBotを追加したり、IPアドレスを直接ブロックしたりしないと、ユーザーがWebサイトに入力するデータを含むWebサイトのデータがAIモデルのトレーニングデータとして収集される。
ブロックしなくても、ペイウォールアクセスを必要とするソース、個人を特定できる情報を収集することが知られているソース、ポリシーに違反するテキストを含むソースは、データを削除するためにフィルタリングされるという。
OpenAIがいつからGPTBotを使っているのかは不明だ。現行のChatGPTは2021年9月までの情報でトレーニングされている。過去にトレーニングに使われたデータについては遡って削除することはできない。
OpenAIの「ChatGPT」や米Microsoftの「新しいBing」、米Googleの「Bard」などのチャットボットが紹介されて以来、生成AIのトレーニングに使うデータを「スクレイピング」することに対する懸念が高まっている。
同日には米Zoomが「顧客の同意なしに」サービス上の音声、動画、テキストチャットのデータをAIモデルのトレーニングに使うことはないと説明した。
関連記事
- OpenAIやMetaなどAI大手7社、米連邦政府に「責任あるAI開発」を“自主的に”約束
米連邦政府はAIを手掛ける7社の代表をホワイトハウスに招集し、AIの安全性、セキュリティ、透明性の高い開発に向けた取り組みを支援するため、これらの企業から自主的な取り組みを確保したと発表した。 - AIの4社(Anthropic、Google、Microsoft、OpenAI)、安全なAI目指すフォーラムFMF立ち上げ
米国のAI主要企業であるAnthropic、Google、Microsoft、OpenAIは、新フォーラム「Frontier Model Forum」(FMF)を立ち上げた。AIの安全性のベストプラクティスを特定し、社会的課題へのAI技術の利用を促進するのが目的としている。 - OpenAIとAP通信がライセンス契約 LLMトレーニングに過去記事取り込み
OpenAIとAP通信は、APのニュースコンテンツアーカイブをOpenAIにライセンス供与する契約を結んだと発表した。OpenAIはLLMトレーニングにAPの過去記事を使えるようになる。APは「OpenAIの技術とノウハウを活用する」が、記事執筆には生成AIを使わないとしている。 - OpenAI、「AI の安全性に対する当社のアプローチ」を説明 「年齢確認オプション検討中」
OpenAIが「AIの安全性に対する当社のアプローチ」を説明した。「GPT-4より強力なAIの開発を直ちに停止せよ」という署名運動などを受けたものとみられる。「悪用する方法をすべて予測することはできない」が新しいシステムのリリースは慎重に行っていると主張する。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.