AppleやAnthropicがYouTubeの文字起こしをAIトレーニングに無断で使用との報道
Anthropic、Nvidia、Apple、Salesforceなどが自社のAIモデルのトレーニングにYouTube動画の字幕データを無断で使っていると米メディアが報じた。これらの企業は、直接YouTubeからデータをスクレイピングしているのではなく、非営利団体が公開しているAPI経由でダウンロードされた字幕を使っているとしている。
米メディアのProof Newsは7月16日(現地時間)、Wiredと共同で調査した結果、米Appleや米Anthropicなどが自社のAIのトレーニングに大量のYouTube動画の素材を使っていることが分かったと報じた。
調査によると、4万8000以上のチャンネルから抜き出された17万3536本のYouTube動画の字幕が、Anthropic、Nvidia、Apple、SalesforceなどのAIトレーニングに使われていたという。
これらの企業は、YouTubeから直接動画を取り込んでいるのではなく、米非営利団体EleutherAIが公開しているAIトレーニング用データセットを利用している。
EleutherAIはこのデータセット「The Pile」を、「大企業と競争するリソースを持たない個人や企業のために」まとめたとしている。データセットにはYouTubeのスクリプトAPI経由でダウンロードした字幕の他、書籍やWikipediaのテキストも含まれている。
YouTubeの字幕を利用された配信者には、MrBeast、PewDiePie、マルケス・ブラウンリー氏などの著名人も含まれる。
ブラウンリー氏はこの件について自身のXアカウントで「Appleは(YouTubeを直接)スクレイピングしてはいないので、技術的には“過失”を回避しているが、これは長期にわたって問題になるだろう」とポストした。
YouTubeのニール・モーハンCEOは4月、米OpenAIが自社のAIモデルのトレーニングにYouTubeの動画を使っているならば、それは「明らかな違反になる」と語った。
AnthropicはProof Newsに対して送ったThe Pileを使ったことを認める声明文で、「YouTubeの規約は、プラットフォームの直接使用を対象としており、The Pileのデータセットの使用ではない」と語った。
SalesforceもThe Pileの使用を認めたが、データセットは公開されているものだと強調した。
Nvidiaはコメントを控え、Appleはコメント要請に応じなかった。
Proof Newsは、配信者が自分の動画のスクリプトがThe Pileに含まれるかどうかをチェックするためのツールを公開している。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
OpenAIが「Sora」の学習にYouTube動画を使ったとすれば違反──YouTubeのモーハンCEO
YouTubeのニール・モーハンCEOはBloombergとのインタビューで、OpenAIが「Sora」のトレーニングにYouTube動画を使っているとすれば、それは明らかな違反だと語った。
OpenAI、コンテンツのスクレイピングを遮断するツール「Media Manager」を2025年までに提供へ
OpenAIは、クリエイターが自分のコンテンツが生成AIのトレーニングにどう使われるかを制御できるツール「Media Manager」を開発中と発表した。2025年までに提供する計画だ。
200人以上のミュージシャンがAIによる権利侵害の停止を求める公開書簡
ビリー・アイリッシュやノラ・ジョーンズなど、200人以上のミュージシャンが、AI開発者やIT企業に向けて、AIによる権利侵害を停止するよう求める書簡を公開した。
全米作家協会、生成AI大手に「トレーニングに著作を無断で使うな」公開書簡
OpenAIやGoogle、Metaなど、生成AIを手掛ける米大手のCEO宛に、全米作家協会が著作物をAIのトレーニングに無断で使わないよう求める書簡を公開した。既に8500人以上が署名している。
