大規模言語モデルの構築の事前学習に使えそうなデータセット(主に日本語系)の整理メモ


はじめに

日本語データセットが含まれるものをまとめています。
情報があったら教えてください。

llm-jpの厳選リストも要参照

データセットのレビューなど



定番のもの

Wikipedia

有名なやつ

mC4

Common Crawlから集めたデータ。要クリーニング

The Pile

英語がメイン

OSCAR

こちらもCommon Crawl

The Stack

GitHubから抽出したコード

2023年頃から出てきたもの

ノイズ除去など、よりきれいなテキストを志向したものが増えてきました。

Swallow

Common Crawlから丁寧に日本語を抽出し直したもの(非公開)

SlimPajama

RedPajama(1.21T)から重複やノイズを除去して627Bまで落としたもの。

RedPajamaはllamaを再現するために作られたデータセットです。

MADLAD-400

Common Crawlから集めた419語、3Tトークンのデータセット

CulturaX

6.3T、167言語。
日本語は全体の1.7%で、108B程度(?)

日英コーパス

コーパスリンク集

自動生成

LASER/tasks/WikiMatrix at main · facebookresearch/LASER · GitHub
wikipediaから生成。高品質との噂

日本語SNLI(JSNLI)データセット - LANGUAGE MEDIA PROCESSING LAB

論理推論

Chain of thoughtデータセット

あまり効果がなかったとの報告も。

CoT自動生成

論理推論(not CoT)

数学


自動データ生成・対話用など

from wiki

orion-14bが良いようです

T5など

https://github.com/sonoisa/deep-question-generation/blob/main/t5_japanese_question_generation.ipynb

wikidataから自動生成


ふりがなコーパス

2/12 情報提供して頂いたので追記しました!

Miracl corpus


まとめ・所感

高品質(?)なデータセットを利用して訓練したと謳われているShizaの事前学習データを見ましたが、以下の通り、かなり微妙なテキストが大量に含まれている印象です。高品質なデータセットの作成が必要そうです。

この記事が気に入ったらサポートをしてみませんか?