この機能は、クローラー巡回を制御するrobots.txtを介して利用する。Webパブリッシャーはこの機能で、Googleのクローラー「Googlebot」によるスクレイピングとインデックス化は持続しつつ、コンテンツのトレーニング利用を回避できるとしている。将来的には、Googleだけでなく、すべてのAIモデルプロバイダーが利用できるようにする計画という。

（Overview of Google crawlers and fetchersのサイトより）

　Googleは7月、ネット上の公開情報をAIのトレーニングに利用しているとプライバシーポリシーに明記した。

　Bardと競合するAIチャット「ChatGPT」を手掛ける米OpenAIも公式サイトで、Webクローラー「GPTBot」によるWebサイトへのアクセスをブロックする方法を紹介している。

　ソーシャルブログメディアの米Mediumは同日、AI企業がMediumのコンテンツをAIのトレーニングに利用することを「ブロックするために可能な限りのことを行う」と発表した。

　Mediumは、AI企業が無断でコンテンツをトレーニングに利用するのはライターから価値を搾取することだと主張し、最終目標はMediumのライターに代わってAI企業から対価を得ることだとしている。

OpenAIのクローラーをNew York Timesなどのペイウォールメディアがブロック開始
The New York Timesや日経新聞など、ペイウォールを設置する複数のメディアが、生成AIのトレーニング用にコンテンツを収集するクローラーをブロックし始めている。
OpenAI、Webデータ収集クローラー「GPTBot」のブロック方法を説明
OpenAIは生成AIトレーニング用データをインターネット上のWebサイトから収集する自社製クローラー「GPTBot」をひっそり紹介し、Webオーナー向けにこのクローラーのブロック方法を説明した。
Google、ネット上の公開情報をAIのトレーニングに利用しているとプライバシーポリシーに明記
Googleは7月1日付でプライバシーポリシーを更新し、BardなどのAIのトレーニングにネットで一般公開されている情報を使っていると明記した。
Google、生成AI採用企業向け保護フレームワーク「Secure AI Framework」
Googleは、生成AIを採用する企業向けのフレームワーク「Secure AI Framework」を発表した。トレーニング用データセットの盗難やAIモデルの改ざんを阻止するためのものだ。