ニュース
ゲームシナリオからLLM学習用データセットを作成・公開するプロジェクト始動
権利者から許諾を得たゲームのシナリオを、LLM学習用の日本語のデータセットとして公開するプロジェクトを、会社員で編集者の「松xR」さんが、個人でスタートした。
権利者から許諾を得たゲームのシナリオを、LLM(大規模言語モデル)学習用の日本語のデータセットとして公開する「日本語オープンコンテンツデータセットプロジェクト」を、会社員で編集者の「松xR」さんが、個人でスタートした。
第1弾として、現在は解散している美少女ゲームブランドRosebleuの10作品(約550万文字)のシナリオデータをJSONL/TSV形式にコンバートし、商用利用可能なライセンス(Apache License 2.0)で公開した。
コンテンツは、Rosebleuの作品のうち、権利譲渡などがなされなかったもので、Rosebleu元代表・青猫氏から提供を受けたという。また、松xRさんが過去に作成した同人ゲームのシナリオ(約2万文字)と、一般人とお嬢様との会話のデータセット(約7000文字)も公開した。
「AI開発において、日本語の良質なエンターテイメントコンテンツが学習データとして十分に供給されることで、結果としてコンテンツ大国である日本ならではの研究開発が進むのでは」と考え、1人でプロジェクトを始めたという。
プロジェクトでは、今後もデータセットの収集・公開を続ける計画。サービスが終了したゲームや、旧機種向けで現在は遊ぶことが難しくなってしまったゲーム、自主制作映画の脚本など、商用利用できる状態で公開可能な作品があれば協力してほしいと呼び掛けている。
関連記事
- PFNが生成AI新会社「Preferred Elements」設立へ 130億パラメータの和製LLMもオープンソースで公開
AIベンチャーのPreferred Networks(PFN)は、生成AI事業に関する新子会社「Preferred Elements」を11月1日に設立すると発表した。併せて、研究・商用利用が可能な、130億パラメータの事前学習済み大規模言語モデル(LLM)「PLaMo-13B」も公開した。 - 東大発AIベンチャー、最大級の日本語LLM公開 metaの「Llama 2」を日本語化
AIスタートアップのELYZAは29日、日本語LLM(大規模言語モデル)「ELYZA-japanese-Llama-2-7b」を公開した。 - 松尾研、公開したLLMの「オープンソース」記述を削除 X(Twitter)で指摘相次ぐ
東京大学院工学系研究科・松尾研究室は、「オープンソース」として8月18日に公開した大規模言語モデル「Weblab-10B」について、「商用利用不可のため定義に当てはまらない」としてオープンソースの記述を削除した。 - 東大松尾研、日英対応の大規模言語モデル公開 100億パラメータ、精度は「国内オープンソース最高水準」
東大松尾研が、日英の2カ国語に対応した100億パラメータサイズの大規模言語モデル(LLM)を、非商用のオープンソースで公開した。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.