見出し画像

ゲームシナリオから作成した、学習用データセット公開プロジェクト

日本語オープンコンテンツデータセット プロジェクトというプロジェクトを始めました。

https://open_contents_datasets.gitlab.io/project_home/

LLM(大規模言語モデル)の学習をする上で、日本語のデータセットがまだまだ多くありません。特に、プロが作ったエンターテイメント作品のシナリオを、個人開発者や研究者が利用出来る場面は限られています。

そこで、そうしたデータセットを集めて、公開するプロジェクトがあったらいいなと思ったので、自分が運営者としてやってみることにしました。

第1弾として、現在は解散している美少女ゲームブランドRosebleuの代表だった青猫様からご提供いただいた、Rosebleuの作品のうち、権利譲渡などがなされなかった10作品のシナリオデータをJSONLとTSV形式にしたものを公開いたします。

JSONLとTSVへのコンバートは私(松xR)が作業しましたので、もしもデータに不都合などがありましたら、私まで御連絡いただければ幸いです。

また、今後も、同様に、データセットの収集と公開を続けていきたいと思っております。このnoteをお読みいただいた方の周囲にサービスが終了したゲームや、旧機種向けで現在は遊ぶことが難しくなってしまったゲーム、自主制作映画の脚本など、商用利用可の状態で公開されることに権利者の方のご理解を得やすい作品がありましたら、ご協力をいただけるとありがたいです。

データ形式のコンバートなどは、プロジェクト側でお引き受けすることも可能です。

これからも公開するデータセットの数を増やしていく意思表示として、私がかつて作成した同人ゲームのシナリオもJSONL化したものも一緒に公開しております。プレイ時間10分程度の短い作品でも、データセットとしてはとても助かります。

AI開発において、日本語の良質なエンターテイメントコンテンツが学習データとして十分に供給されることで、結果としてコンテンツ大国である日本ならではの研究開発が進むのでは、という仮説に基づいて運営しています。

ぜひ、応援していただけると嬉しいです。そして、エンターテインメントコンテンツ向けの大規模言語モデルの研究開発が進むことを願っています。私自身も、個人開発者として、こうしたデータセットで研究を進めたいと思っております。

もし、ご協力いただけそうなデータがございましたら、お気軽に以下まで御連絡をいただければ幸いです。

松xR matsu.xr@gmail.com

この記事が気に入ったらサポートをしてみませんか?