「著作物を食うAIは違法か」に実証的な証拠か　“著作物を学習したAI” vs. 専門作家で文章生成能力を検証　米国チームが発表

公開 2025年11月06日 12時00分

著者

山下裕毅

[ITmedia]

印刷する連載新着通知を受け取る

Innovative Tech（AI+）：

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。

X：＠shiropen2

　米ストーニーブルック大学や米コロンビア大学ロースクールなどに所属する研究者らが発表した論文「Readers Prefer Outputs of AI Trained on Copyrighted Books over Expert Human Writers」は、著作権で保護された書籍で訓練されたAIが、専門作家よりも読者に好まれる文章を生成できることを明らかにした研究報告だ。

　この実験結果は、AIが著作物を学習することの是非を巡る議論に実証的な証拠を提供する可能性がある。

　研究チームは、芸術分野の大学院の学位である「Master of Fine Arts」（MFA）の訓練を受けた専門作家と、GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Proの3つの最先端AIモデルとを比較して、どちらが優れた文章生成能力を持つかを実験した。MFAプログラムは歴史的に多くの受賞作家を輩出している。

　実験では、ノーベル文学賞受賞者やブッカー賞受賞者を含む50人の著名作家のスタイルを模倣して、最大450語の文章を作成する課題を設けた。評価者は、MFA候補者28人と一般読者131人の計159人で、誰が書いた文章か分からないブラインド評価方式で実施。テストは2つの方法で行われた。

読者が人間作家とAI生成文章の文学的質を比較評価し、どちらがより優れた文章表現かを判定

　1つ目は、AIに人間の専門家と同じ指示（プロンプト）のみを与えた場合だ。結果、評価者はAI生成テキストを文体の忠実性と文章の質の両面で強く否定的に評価した。陳腐な表現の多用や過度に説明的な文章など、AIらしい癖が残っていた。

　2つ目は、個々の作家の全作品をGPT-4oにファインチューニングさせた場合だ。この場合の結果は劇的に異なり、人間の専門作家よりもAIが書いた文章が高く評価された。AI生成の文章を検出器で調べても3％しか「AIが書いた」と検出されなかった。つまり、ファインチューニングによって本物の作家らしい自然な文章を生成できることを示唆する。

個々の作家の作品群でファインチューニングされたAIが、作家の文体を模倣して人間の専門作家以上の文章を生成

　経済的インパクトを考えると、モデルのファインチューニングと推論のコストは、100万トークン当たり25ドルのAPIベースのファインチューニングに加えて、10万語のテキスト生成に3ドルを想定すると、著者1人当たり25～276ドル（中央値は約81ドル）の範囲だ。

　プロの作家に同量の執筆を依頼すれば約2万5000ドルかかることを考えると、これは99.7％のコスト削減を意味する。米国の出版産業は数十万人の雇用を支え、年間300億ドルの収益を生み出していることから、このコスト削減は業界に大きな影響を与える可能性がある。

AI企業による“著作権侵害”にも影響か

　この研究の背景には、AI企業による大規模な著作権侵害の問題がある。最近の訴訟（Bartz対Anthropic）で明らかになったところによると、Anthropicは書籍の海賊版サイト「LibGen」から500万冊以上、同じく海賊版サイト「Pirate Library Mirror」から200万冊の書籍を違法に入手していた。

　また、MetaとBloombergが言語モデルの訓練に使用した著作物も含まれる約19万1000冊の書籍のデータセット「Books3」も使用していた。この無許可の使用は著者たちの怒りを引き起こし、AI企業に対する訴訟の引き金となっている。

　研究結果では、個々の著者の作品でファインチューニングされたAIの文章は、人間の文章より読者に好まれ、しかもAI製と判別困難であった。AI生成の低コストと読者からの高評価を考慮すれば、特定著者の文体を学習したAIは人間作家の市場を現実的に脅かす可能性があることを、この研究は示唆している。

Source and Image Credits: Chakrabarty, Tuhin, Jane C. Ginsburg, and Paramveer Dhillon. “Readers Prefer Outputs of AI Trained on Copyrighted Books over Expert Human Writers.” arXiv preprint arXiv:2510.13939（2025）.

この連載新着通知をメールで受け取る

印刷する

Innovative Tech（AI+）

2019年の開始以来、多様な最新論文を取り上げている連載「Innovative Tech」。ここではその“AI編”として、人工知能に特化し、世界中の興味深い論文を独自視点で厳選、解説する。執筆は研究論文メディア「Seamless」（シームレス）を主宰し、日課として数多くの論文に目を通す山下氏が担当。イラストや漫画は、同メディア所属のアーティスト・おね氏が手掛けている。

連載新着通知を受け取る

この連載の記事をもっと見る