Google、WebサイトのコンテンツをAIトレーニングからオプトアウトするツールを提供
Googleは、Webパブリッシャー向けに、BardやVertex AIなどのGoogleのAIのトレーニングにコンテンツを使わせないようにするツール「Google-Extended」を発表した。クローラーによるインデックスはさせつつコンテンツ利用を回避できる。
米Googleは9月28日(現地時間)、Webサイトのオーナー(以下、「Webパブリッシャー」)に対し、サイトのコンテンツをGoogleのAIモデルのトレーニングに使われないようオプトアウトする方法「Google-Extended」を提供すると発表した。
Google-Extendedは、Googleの生成AI「Bard」とMLプラットフォームの「Vertex AI」および、これらの製品を強化する将来の世代のモデルを含む一連のAIの改善のためにコンテンツを使われたくないWebパブリッシャーに、コンテンツへのアクセスを制御する機能を提供する。
この機能は、クローラー巡回を制御するrobots.txtを介して利用する。Webパブリッシャーはこの機能で、Googleのクローラー「Googlebot」によるスクレイピングとインデックス化は持続しつつ、コンテンツのトレーニング利用を回避できるとしている。将来的には、Googleだけでなく、すべてのAIモデルプロバイダーが利用できるようにする計画という。
Googleは7月、ネット上の公開情報をAIのトレーニングに利用しているとプライバシーポリシーに明記した。
Bardと競合するAIチャット「ChatGPT」を手掛ける米OpenAIも公式サイトで、Webクローラー「GPTBot」によるWebサイトへのアクセスをブロックする方法を紹介している。
ソーシャルブログメディアの米Mediumは同日、AI企業がMediumのコンテンツをAIのトレーニングに利用することを「ブロックするために可能な限りのことを行う」と発表した。
Mediumは、AI企業が無断でコンテンツをトレーニングに利用するのはライターから価値を搾取することだと主張し、最終目標はMediumのライターに代わってAI企業から対価を得ることだとしている。
関連記事
- OpenAIのクローラーをNew York Timesなどのペイウォールメディアがブロック開始
The New York Timesや日経新聞など、ペイウォールを設置する複数のメディアが、生成AIのトレーニング用にコンテンツを収集するクローラーをブロックし始めている。 - OpenAI、Webデータ収集クローラー「GPTBot」のブロック方法を説明
OpenAIは生成AIトレーニング用データをインターネット上のWebサイトから収集する自社製クローラー「GPTBot」をひっそり紹介し、Webオーナー向けにこのクローラーのブロック方法を説明した。 - Google、ネット上の公開情報をAIのトレーニングに利用しているとプライバシーポリシーに明記
Googleは7月1日付でプライバシーポリシーを更新し、BardなどのAIのトレーニングにネットで一般公開されている情報を使っていると明記した。 - Google、生成AI採用企業向け保護フレームワーク「Secure AI Framework」
Googleは、生成AIを採用する企業向けのフレームワーク「Secure AI Framework」を発表した。トレーニング用データセットの盗難やAIモデルの改ざんを阻止するためのものだ。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.