このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。
X: @shiropen2
米ストーニーブルック大学や米コロンビア大学ロースクールなどに所属する研究者らが発表した論文「Readers Prefer Outputs of AI Trained on Copyrighted Books over Expert Human Writers」は、著作権で保護された書籍で訓練されたAIが、専門作家よりも読者に好まれる文章を生成できることを明らかにした研究報告だ。
この実験結果は、AIが著作物を学習することの是非を巡る議論に実証的な証拠を提供する可能性がある。
研究チームは、芸術分野の大学院の学位である「Master of Fine Arts」(MFA)の訓練を受けた専門作家と、GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Proの3つの最先端AIモデルとを比較して、どちらが優れた文章生成能力を持つかを実験した。MFAプログラムは歴史的に多くの受賞作家を輩出している。
実験では、ノーベル文学賞受賞者やブッカー賞受賞者を含む50人の著名作家のスタイルを模倣して、最大450語の文章を作成する課題を設けた。評価者は、MFA候補者28人と一般読者131人の計159人で、誰が書いた文章か分からないブラインド評価方式で実施。テストは2つの方法で行われた。
1つ目は、AIに人間の専門家と同じ指示(プロンプト)のみを与えた場合だ。結果、評価者はAI生成テキストを文体の忠実性と文章の質の両面で強く否定的に評価した。陳腐な表現の多用や過度に説明的な文章など、AIらしい癖が残っていた。
2つ目は、個々の作家の全作品をGPT-4oにファインチューニングさせた場合だ。この場合の結果は劇的に異なり、人間の専門作家よりもAIが書いた文章が高く評価された。AI生成の文章を検出器で調べても3%しか「AIが書いた」と検出されなかった。つまり、ファインチューニングによって本物の作家らしい自然な文章を生成できることを示唆する。
経済的インパクトを考えると、モデルのファインチューニングと推論のコストは、100万トークン当たり25ドルのAPIベースのファインチューニングに加えて、10万語のテキスト生成に3ドルを想定すると、著者1人当たり25〜276ドル(中央値は約81ドル)の範囲だ。
プロの作家に同量の執筆を依頼すれば約2万5000ドルかかることを考えると、これは99.7%のコスト削減を意味する。米国の出版産業は数十万人の雇用を支え、年間300億ドルの収益を生み出していることから、このコスト削減は業界に大きな影響を与える可能性がある。
この研究の背景には、AI企業による大規模な著作権侵害の問題がある。最近の訴訟(Bartz対Anthropic)で明らかになったところによると、Anthropicは書籍の海賊版サイト「LibGen」から500万冊以上、同じく海賊版サイト「Pirate Library Mirror」から200万冊の書籍を違法に入手していた。
また、MetaとBloombergが言語モデルの訓練に使用した著作物も含まれる約19万1000冊の書籍のデータセット「Books3」も使用していた。この無許可の使用は著者たちの怒りを引き起こし、AI企業に対する訴訟の引き金となっている。
この研究は、AI企業が訓練に著作権保護書籍を無断使用したとする訴訟に重要な示唆を与える。特に「フェアユース」(公正利用)の第4要素である「原作品の潜在的市場や価値への影響」に直接関連する実証的証拠を提供している。焦点は、AI生成物が原著作物の市場代替品となり、競合作品の量産により「市場希釈」を起こすかどうかだ。
研究結果では、個々の著者の作品でファインチューニングされたAIの文章は、人間の文章より読者に好まれ、しかもAI製と判別困難であった。AI生成の低コストと読者からの高評価を考慮すれば、特定著者の文体を学習したAIは人間作家の市場を現実的に脅かす可能性があることを、この研究は示唆している。
Source and Image Credits: Chakrabarty, Tuhin, Jane C. Ginsburg, and Paramveer Dhillon. “Readers Prefer Outputs of AI Trained on Copyrighted Books over Expert Human Writers.” arXiv preprint arXiv:2510.13939(2025).
「作家の尊厳を踏みにじった」――集英社、動画生成AI「Sora 2」に抗議 権利侵害には「厳正な対応」
講談社やKADOKAWAなど19団体が生成AI巡り共同声明 「Sora 2」問題受け
「Sora 2は著作権侵害」――出版・アニメ制作会社など集う国内団体が声明 OpenAIに要望書を提出
百科事典のBritannica、Perplexityを著作権・商標権侵害で提訴
朝日と日経、米Perplexityを共同提訴 読売に続き 「記事の無断利用」で計44億円請求Copyright © ITmedia, Inc. All Rights Reserved.