ITmedia NEWS > AI+ >
ITmedia AI+ AI活用のいまが分かる

ChatGPTは「ハリー・ポッター」を読破済み? 生成AIで懸念される著作権侵害のリスクとは事例で学ぶAIガバナンス(2/3 ページ)

» 2023年05月25日 08時00分 公開
[小林啓倫ITmedia]

ChatGPTも「ハリー・ポッター」を読んでいた?

 生成AIはそれが依拠するモデルを構築する際に、大量のデータを収集し、トレーニングに使用する。その際に著作物が混入してしまうわけだが、訓練データにどのような内容が含まれているかは明らかにされないことも多い。

 例えばChatGPTの場合、使用しているモデルはLLM(Large Language Model:大規模言語モデル)のGPT-3.5、あるいはGPT-4だ。どちらのバージョンについても、OpenAIは使用した訓練データの詳細を明かしていない。

 その訓練データの中に、他者の著作物が勝手に取り込まれているのではないか。そのような指摘は以前からあり、実際にそれを裏付けるような主張や研究結果も現れている。

 米Amazonもこの点において注意を払っているようだ。ビジネスメディア「Insider」が独自に入手したというAmazonの内部文書によると、同社の顧問弁護士が社員に対し、ChatGPTに機密情報を入力しないよう要請したという。

 その理由は「同社内の既存資料に極めて近い出力結果が表示されるのを目にしたから」というもの。この主張を裏付ける証拠は示されていないが、仮に弁護士の発言が事実であれば、一企業の内部文書をOpenAIが勝手にモデル開発に利用し(この時点で大きな問題だ)、さらにその内容が「これは我が社の資料だ」と認識できるほど似た形で出力されたことになる。

 また米カリフォルニア大学バークレー校の研究者らは、GPT-4の訓練データの中に、大人気ファンタジー小説「ハリー・ポッターと賢者の石」など著名な小説コンテンツが含まれている可能性が高いとする論文を発表している。

 この論文では、次のような実験が行われている。まず1749年から2020年までに出版された小説571作品から、文章の一部を抽出する。そしてそこに含まれる名称の名前を隠してGPT-4などのLLMに与え、隠された部分を予測させる。その結果が正しいかどうかを確認することで、サンプルとなった小説をどの程度LLMが記憶しているかを把握する、というものだ。

 結果、GPT-4が記憶している度合いが大きかった小説として、前述の「ハリー・ポッターと賢者の石」や「不思議の国のアリス」「1984」「フィフティ・シェイズ・オブ・グレイ」などが確認されたという(全571作品の結果をこちらのGoogle Docs上で確認できる)。

Copyright © ITmedia, Inc. All Rights Reserved.