OpenAI、Webデータ収集クローラー「GPTBot」のブロック方法を説明

» 2023年08月08日 13時57分公開

[ITmedia]

　米OpenAIは、Webサイト管理者が同社のWebクローラー「GPTBot」によるサイトのデータ収集を回避する方法を紹介した。紹介する文書に日付はないが、米AI専用オンラインメディアMaginativeなどが8月7日（現地時間）、文書を見つけて報じた。

日付のないGPTBotに関する文書

　GPTBotは、同社のAIモデルをトレーニングするために公開データを収集するためのWebクローラー。OpenAIはこの文書で、GPTBotのクローリングをブロックする手順を説明している。

　Webオーナーがrobots.txtにGPTBotを追加したり、IPアドレスを直接ブロックしたりしないと、ユーザーがWebサイトに入力するデータを含むWebサイトのデータがAIモデルのトレーニングデータとして収集される。

　ブロックしなくても、ペイウォールアクセスを必要とするソース、個人を特定できる情報を収集することが知られているソース、ポリシーに違反するテキストを含むソースは、データを削除するためにフィルタリングされるという。

　OpenAIがいつからGPTBotを使っているのかは不明だ。現行のChatGPTは2021年9月までの情報でトレーニングされている。過去にトレーニングに使われたデータについては遡って削除することはできない。

　OpenAIの「ChatGPT」や米Microsoftの「新しいBing」、米Googleの「Bard」などのチャットボットが紹介されて以来、生成AIのトレーニングに使うデータを「スクレイピング」することに対する懸念が高まっている。

　同日には米Zoomが「顧客の同意なしに」サービス上の音声、動画、テキストチャットのデータをAIモデルのトレーニングに使うことはないと説明した。

OpenAIやMetaなどAI大手7社、米連邦政府に「責任あるAI開発」を“自主的に”約束
米連邦政府はAIを手掛ける7社の代表をホワイトハウスに招集し、AIの安全性、セキュリティ、透明性の高い開発に向けた取り組みを支援するため、これらの企業から自主的な取り組みを確保したと発表した。
AIの4社（Anthropic、Google、Microsoft、OpenAI）、安全なAI目指すフォーラムFMF立ち上げ
米国のAI主要企業であるAnthropic、Google、Microsoft、OpenAIは、新フォーラム「Frontier Model Forum」（FMF）を立ち上げた。AIの安全性のベストプラクティスを特定し、社会的課題へのAI技術の利用を促進するのが目的としている。
OpenAIとAP通信がライセンス契約　LLMトレーニングに過去記事取り込み
OpenAIとAP通信は、APのニュースコンテンツアーカイブをOpenAIにライセンス供与する契約を結んだと発表した。OpenAIはLLMトレーニングにAPの過去記事を使えるようになる。APは「OpenAIの技術とノウハウを活用する」が、記事執筆には生成AIを使わないとしている。
OpenAI、「AI の安全性に対する当社のアプローチ」を説明　「年齢確認オプション検討中」
OpenAIが「AIの安全性に対する当社のアプローチ」を説明した。「GPT-4より強力なAIの開発を直ちに停止せよ」という署名運動などを受けたものとみられる。「悪用する方法をすべて予測することはできない」が新しいシステムのリリースは慎重に行っていると主張する。