見出し画像

LLM のデータセットまとめ

LLMのデータセットをまとめました。


1. 事前学習データセット

1-1. Text

・Wikipedia (ja)
 ・fujiki/wiki40b_ja
・llm-jp-corpus-v2 (ja)
 
llm-jp-corpus-v2
・shisa-pretrain-en-ja-v1 (ja)
 
augmxnt/shisa-pretrain-en-ja-v1
・youlery (ja)
 ・ce-lery/mistral-3b-dataset
 ・ayousanz/OSCOR-2301-ja-cleaned
 ・ayousanz/c4-ja-cleaned

Common Crawl (multilingual)
Wikipedia (en)
Wiki Demo (en)
RefinedWeb (en)
RedPajama V2 (en)
Pile (en)
SkyPile (zh)

The Stack 2 (en)
The Stack (en)
StarCoder (en)

1-2. Code

The Stack 2 (en)
The Stack (en)
StarCoder (en)

2. SFTデータセット

2-1. Instruction

・cl-nagoya/auto-wiki-qa (ja)
 ・cl-nagoya/auto-wiki-qa
・ichikara-instruction (ja)
 
ichikara-instruction
 ・p1atdev/ichikara-instruction
・llm-japanese-dataset (ja)
 ・izumi-lab/llm-japanese-dataset
・ultra-orca-boros-en-ja-v1 (ja)
 ・augmxnt/ultra-orca-boros-en-ja-v1
・Stanford Alpaca (ja)
 
fujiki/japanese_alpaca_data
 ・shi3z/alpaca_cleaned_ja_json
・Dolly (ja)
 ・fujiki/databricks-dolly-15k-ja-reformat-v1
 ・kunishou/databricks-dolly-15k-ja
 ・bbz662bbz/databricks-dolly-15k-ja-gozaru (ござる)
・OASST1 (ja)
 ・fujiki/oasst1-89k-ja-reformat-v1
 ・kunishou/oasst1-89k-ja
・OASST2 (ja)
 ・kunishou/oasst2-135k-ja
・Guanaco Dataset (ja)
 ・fujiki/guanaco_ja
・OpenOrca (ja)
 ・shumpei2525/OpenOrca-train-ja
・CoTangent (ja)
 ・sudy-super/CoTangent
・wikipedia-qa-ja (ja)
 ・alfredplpl/wikipedia-qa-ja-100k
・Cosmopedia (ja)
 ・aixsatoshi/cosmopedia-japanese-20k

Open Assistant (multilingual)
Guanaco Dataset (multilingual)
Alpaca CoT (multilingual)
Stanford Alpaca (en)
LIMA (en)
OpenPlatypus (en)
CodeAlpaca 20k (en)
OpenOrca (en)
MathInstruct (en)
Nectar (en)
AgentInstruct (en)
Evol Instruct V2 (en)
Cosmopedia (en)

2-2. Code Instruction

CodeAlpaca 20k (en)

2-3. Chat

JMultiWOZ: Japanese Multi-Domain Wizard-of-Oz Dataset (ja) 
・ja conv wikipedia llama2pro8b (ja)
 
shi3z/ja_conv_wikipedia_orion14B_100K
 ・shi3z/ja_conv_wikipedia_llama2pro8b_30k

UltraChat (en)
ShareGPT Hyperfiltered (en)
UltraChat 200k (en)
LMSYS Chat 1M (en)

3. Preferenceデータセット

・OpenRLHF (ja)
 
ryota39/dpo-ja-194k
 ・ryota39/dpo-ja-45k
 ・ryota39/boolq-3k-ja
 ・ryota39/truthy-dpo-ja
・chatbot-arena-ja-calm2-7b-chat-experimental (ja)
 
cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental
・shisa-en-ja-dpo-v1 (ja)

 ・augmxnt/shisa-en-ja-dpo-v1
・HH-RLHF (ja)
 ・fujiki/japanese_hh-rlhf-49k
 ・kunishou/hh-rlhf-49k-ja

Open Assistant (multilingual)

HH-RLHF (en)
GPT-4 Generated Data (en&zh)
Nectar (en)

4. タスク別データセット

4-1. マルチモーダル

・LLaVA (ja)
 
turing-motors/LLaVA-Instruct-150K-JA
 ・toshi456/llava-jp-1.3b-v1.0

・M2UGen (en)
 ・M2UGen/MUCaps
 ・M2UGen/MUImage
 ・M2UGen/MUVideo
 ・M2UGen/MUEdit

4-2. キャラクター対話

・つくよみちゃん会話AI育成計画 (ja)
 ・会話テキストデータセット配布
・日本語オープンコンテンツデータセット プロジェクトページ (ja)
 ・https://open_contents_datasets.gitlab.io/project_home/
・ずんだもんデータセット (ja)
 ・takaaki-inada/databricks-dolly-15k-ja-zundamon
 ・alfredplpl/simple-zundamon

4-3. AITuber特化型質問応答

・aituber question dataset (ja)
 ・sr2mg/aituber_question_dataset

4-4. 対話要約

・dialogsum (ja)
 ・sudy-super/dialogsum-ja

4-5. 日本語論文コーパス

・J-ResearchCorpus (ja)
 ・kunishou/J-ResearchCorpus

4-6. SteerLM 向けのデータセット

・HelpSteer (ja)
 ・kunishou/HelpSteer-35k-ja
・HelpSteer (en)
 ・nvidia/HelpSteer

5. データセット作成ツール

distilabel

6. 関連



この記事が気に入ったらサポートをしてみませんか?