ゲームシナリオからLLM学習用データセットを作成・公開するプロジェクト始動

権利者から許諾を得たゲームのシナリオを、LLM学習用の日本語のデータセットとして公開するプロジェクトを、会社員で編集者の「松xR」さんが、個人でスタートした。

[岡田有花，ITmedia] PC用表示関連情報

LINE

Hatena

　権利者から許諾を得たゲームのシナリオを、LLM（大規模言語モデル）学習用の日本語のデータセットとして公開する「日本語オープンコンテンツデータセットプロジェクト」を、会社員で編集者の「松xR」さんが、個人でスタートした。

　第1弾として、現在は解散している美少女ゲームブランドRosebleuの10作品（約550万文字）のシナリオデータをJSONL／TSV形式にコンバートし、商用利用可能なライセンス（Apache License 2.0）で公開した。

プロジェクトページより

　コンテンツは、Rosebleuの作品のうち、権利譲渡などがなされなかったもので、Rosebleu元代表・青猫氏から提供を受けたという。また、松xRさんが過去に作成した同人ゲームのシナリオ（約2万文字）と、一般人とお嬢様との会話のデータセット（約7000文字）も公開した。

　「AI開発において、日本語の良質なエンターテイメントコンテンツが学習データとして十分に供給されることで、結果としてコンテンツ大国である日本ならではの研究開発が進むのでは」と考え、1人でプロジェクトを始めたという。

　プロジェクトでは、今後もデータセットの収集・公開を続ける計画。サービスが終了したゲームや、旧機種向けで現在は遊ぶことが難しくなってしまったゲーム、自主制作映画の脚本など、商用利用できる状態で公開可能な作品があれば協力してほしいと呼び掛けている。