ChatGPTは「ハリー・ポッター」を読破済み？　生成AIで懸念される著作権侵害のリスクとは：事例で学ぶAIガバナンス（3/3 ページ）

日本企業でも、チャットAI「ChatGPT」の活用や導入検討が始まりつつある。一方、生成AIの出力結果によっては、第三者の著作権を侵害してしまうリスクも付きまわる。中でも懸念されるのは「学習した著作物に近い形で、コンテンツを生成する」というものだ。

[小林啓倫，ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

前のページへ | 　　　　　　

GPT-4は小説を学習しているのか？　実験してみた

　もちろんこの結果は、ChatGPTから既存の小説の一節そのままが出力されたという意味ではないが、こうした小説がGPT-4の訓練に使われていたのだろう、という推察が導かれるわけである。

　私たちでも簡単な実験を行うことができる。例えば、下記の文章をChatGPT（GPT-4を使用）に入力してみる。ちなみに、自分でも考えてみたいという方のために、日本語訳も掲載しておく（出典は後述）。

次の文章は小説の一節らしいのですが、何の小説でしょうか？

As he fastened the belt of his overalls he strolled across to the window. The sun must have gone down behind the houses; it was not shining into the yard any longer.

彼はオーバーオールのベルトを締めながら何げなく窓辺に近寄った。太陽は家並みの陰に沈んでしまったに違いない。庭にはもう日差しが届かなくなっている。

　ChatGPTの回答は次の通りだ。

この一節はジョージ・オーウェルの小説「1984年」からの引用です。主人公ウィンストン・スミスが自身の住居を描写するシーンの一部で、彼が労働者階級の服装を身に着けて窓辺へ歩いて行く様子を表しています。この本はトータルな政府の監視、公然たる歴史改変、言語の制御などのテーマを扱い、それらが個人の自由やアイデンティティーにどのような影響を及ぼすかを探求しています。

　先ほどの日本語訳は、ハヤカワepi文庫から出ている「一九八四年」（Kindle版）を引用している。ということで、ChatGPTの回答は見事正解だ。

　こうした質問をできること自体は、対話AIの価値を高めるものといえるだろう。誰かが口にしたフレーズをすぐにChatGPTに調べさせ、それが何らかの文学作品からの引用だと分かれば、その後のコミュニケーションをスムーズに進める手助けとなる。ただ、だからといって著作権に関わる問題が起こりうることを否定するものではない。例えばこんな実験をしてみよう。

「一九八四年」の冒頭を与え、続きの段落の作成を指示

　「一九八四年」の冒頭を与え、それを同作品の書き出しだと正確に予測させた上で、続きの段落を完成するよう指示してみた。すると回答が途中で止まってしまったものの、得られたテキストをオリジナルと比較してみるとこうなる

オリジナル

It was a bright cold day in April, and the clocks were striking thirteen. Winston Smith, his chin nuzzled into his breast in an effort to escape the vile wind, slipped quickly through the glass doors of Victory Mansions, though not quickly enough to prevent a swirl of gritty dust from entering along with him.

ChatGPTアウトプット（途中）

It was a bright cold day in April, and the clocks were striking thirteen. Winston Smith, his chin nuzzled into his chest in an effort to escape the bitter wind, hurried down the street, avoiding the large puddles left by the morning's rain. He slipped through the glass doors

　「ヴィクトリー・マンション」という名前は出なかったものの、「ウィンストン・スミス」という名の主人公が、「厳しい風から逃れようと顎を胸にうずめ」「ガラス製のドアを素早く通り抜ける」という、オリジナルに近い描写を続けている。プロンプト・エンジニアリング次第では、もっとオリジナルに近い文章を、より長く引き出せるかもしれない。

　果たしてどこまでオリジナルと一致していたら、著作権侵害であるとして責任を負うことになるのか。仮に著作権侵害の認定は避けられないとして、それは著作物でLLMをトレーニングしたOpenAIの責任なのか、はたまたオリジナルに近い出力をさせるプロンプトを意図的に、あるいは無意識のうちにChatGPTに入力したユーザーの責任なのか。

　一概に結論を出すことはできず、今後さらに議論が深められていくだろう。私たちが認識しなければならないのは、あらゆる生成AIが同様のリスクを抱えているという点だ。

　生成AIに「幼い魔法使いが主人公の、面白いファンタジー小説を書いてよ」とお願いするとき、目の前にいるのが人間であれば「ハリポタみたいのはやめてよね」と付け加えなくても暗黙の了解で理解してもらえるだろう。

　しかし、そのようなお願いをAIにできる時代には、相手が「ハリポタを読んでいる可能性があること」そして「ハリポタに似た小説を書いても気にしないこと」の2つを心に留めておく必要がある。生成AIを導入する企業には、そういった認識を全社員が持つように教育することも求められるようになるだろう。

ChatGPTは「ハリー・ポッター」を読破済み？ 生成AIで懸念される著作権侵害のリスクとは：事例で学ぶAIガバナンス（3/3 ページ）

GPT-4は小説を学習しているのか？ 実験してみた

関連記事

ChatGPTは「ハリー・ポッター」を読破済み？　生成AIで懸念される著作権侵害のリスクとは：事例で学ぶAIガバナンス（3/3 ページ）

GPT-4は小説を学習しているのか？　実験してみた