大規模言語モデルの構築の事前学習に使えそうなデータセット(主に日本語系)の整理メモ
はじめに
日本語データセットが含まれるものをまとめています。
情報があったら教えてください。
データセットのレビューなど
定番のもの
Wikipedia
有名なやつ
mC4
Common Crawlから集めたデータ。要クリーニング
The Pile
英語がメイン
OSCAR
こちらもCommon Crawl
The Stack
GitHubから抽出したコード
2023年頃から出てきたもの
ノイズ除去など、よりきれいなテキストを志向したものが増えてきました。
Swallow
Common Crawlから丁寧に日本語を抽出し直したもの(非公開)
SlimPajama
RedPajama(1.21T)から重複やノイズを除去して627Bまで落としたもの。
RedPajamaはllamaを再現するために作られたデータセットです。
MADLAD-400
Common Crawlから集めた419語、3Tトークンのデータセット
CulturaX
6.3T、167言語。
日本語は全体の1.7%で、108B程度(?)
日英コーパス
コーパスリンク集
自動生成
LASER/tasks/WikiMatrix at main · facebookresearch/LASER · GitHub
wikipediaから生成。高品質との噂
日本語SNLI(JSNLI)データセット - LANGUAGE MEDIA PROCESSING LAB
論理推論
Chain of thoughtデータセット
あまり効果がなかったとの報告も。
CoT自動生成
論理推論(not CoT)
数学
自動データ生成・対話用など
from wiki
orion-14bが良いようです
T5など
https://github.com/sonoisa/deep-question-generation/blob/main/t5_japanese_question_generation.ipynb
wikidataから自動生成
ふりがなコーパス
2/12 情報提供して頂いたので追記しました!
Miracl corpus
まとめ・所感
高品質(?)なデータセットを利用して訓練したと謳われているShizaの事前学習データを見ましたが、以下の通り、かなり微妙なテキストが大量に含まれている印象です。高品質なデータセットの作成が必要そうです。
この記事が気に入ったらサポートをしてみませんか?