Google、WebサイトのコンテンツをAIトレーニングからオプトアウトするツールを提供

Googleは、Webパブリッシャー向けに、BardやVertex AIなどのGoogleのAIのトレーニングにコンテンツを使わせないようにするツール「Google-Extended」を発表した。クローラーによるインデックスはさせつつコンテンツ利用を回避できる。

[佐藤由紀子，ITmedia] PC用表示関連情報

LINE

Hatena

　米Googleは9月28日（現地時間）、Webサイトのオーナー（以下、「Webパブリッシャー」）に対し、サイトのコンテンツをGoogleのAIモデルのトレーニングに使われないようオプトアウトする方法「Google-Extended」を提供すると発表した。

　Google-Extendedは、Googleの生成AI「Bard」とMLプラットフォームの「Vertex AI」および、これらの製品を強化する将来の世代のモデルを含む一連のAIの改善のためにコンテンツを使われたくないWebパブリッシャーに、コンテンツへのアクセスを制御する機能を提供する。

　この機能は、クローラー巡回を制御するrobots.txtを介して利用する。Webパブリッシャーはこの機能で、Googleのクローラー「Googlebot」によるスクレイピングとインデックス化は持続しつつ、コンテンツのトレーニング利用を回避できるとしている。将来的には、Googleだけでなく、すべてのAIモデルプロバイダーが利用できるようにする計画という。

（Overview of Google crawlers and fetchersのサイトより）

　Googleは7月、ネット上の公開情報をAIのトレーニングに利用しているとプライバシーポリシーに明記した。

　Bardと競合するAIチャット「ChatGPT」を手掛ける米OpenAIも公式サイトで、Webクローラー「GPTBot」によるWebサイトへのアクセスをブロックする方法を紹介している。

　ソーシャルブログメディアの米Mediumは同日、AI企業がMediumのコンテンツをAIのトレーニングに利用することを「ブロックするために可能な限りのことを行う」と発表した。

　Mediumは、AI企業が無断でコンテンツをトレーニングに利用するのはライターから価値を搾取することだと主張し、最終目標はMediumのライターに代わってAI企業から対価を得ることだとしている。

Google、WebサイトのコンテンツをAIトレーニングからオプトアウトするツールを提供

関連記事

関連リンク