LLM のデータセットまとめ

2023年4月3日 15:37

LLMのデータセットをまとめました。

1. 事前学習データセット

1-1. Text

・Wikipedia (ja)
　・fujiki/wiki40b_ja
・llm-jp-corpus-v2 (ja)
　・llm-jp-corpus-v2
・shisa-pretrain-en-ja-v1 (ja)
　・augmxnt/shisa-pretrain-en-ja-v1
・youlery (ja)
　・ce-lery/mistral-3b-dataset
　・ayousanz/OSCOR-2301-ja-cleaned
　・ayousanz/c4-ja-cleaned

・Common Crawl (multilingual)
・Wikipedia (en)
・Wiki Demo (en)
・RefinedWeb (en)
・RedPajama V2 (en)
・Pile (en)
・SkyPile (zh)

・The Stack 2 (en)
・The Stack (en)
・StarCoder (en)

1-2. Code

・The Stack 2 (en)
・The Stack (en)
・StarCoder (en)

2. SFTデータセット

2-1. Instruction

・tokyotech-llm/Swallow-Instruct-v0.1 (ja)
　・tokyotech-llm/Swallow-Instruct-v0.1
・cl-nagoya/auto-wiki-qa (ja)
　・cl-nagoya/auto-wiki-qa
・ichikara-instruction (ja)
　・ichikara-instruction
　・p1atdev/ichikara-instruction
・llm-japanese-dataset (ja)
　・izumi-lab/llm-japanese-dataset
・ultra-orca-boros-en-ja-v1 (ja)
　・augmxnt/ultra-orca-boros-en-ja-v1
・Stanford Alpaca (ja)
　・fujiki/japanese_alpaca_data
　・shi3z/alpaca_cleaned_ja_json
・Dolly (ja)
　・fujiki/databricks-dolly-15k-ja-reformat-v1
　・kunishou/databricks-dolly-15k-ja
　・bbz662bbz/databricks-dolly-15k-ja-gozaru (ござる)
・OASST1 (ja)
　・fujiki/oasst1-89k-ja-reformat-v1
　・kunishou/oasst1-89k-ja
・OASST2 (ja)
　・kunishou/oasst2-135k-ja
・Guanaco Dataset (ja)
　・fujiki/guanaco_ja
・OpenOrca (ja)
　・shumpei2525/OpenOrca-train-ja
・CoTangent (ja)
　・sudy-super/CoTangent
・wikipedia-qa-ja (ja)
　・alfredplpl/wikipedia-qa-ja-100k
・Cosmopedia (ja)
　・aixsatoshi/cosmopedia-japanese-20k

・Open Assistant (multilingual)
・Guanaco Dataset (multilingual)
・Alpaca CoT (multilingual)
・Stanford Alpaca (en)
・LIMA (en)
・OpenPlatypus (en)
・CodeAlpaca 20k (en)
・OpenOrca (en)
・MathInstruct (en)
・Nectar (en)
・AgentInstruct (en)
・Evol Instruct V2 (en)
・Cosmopedia (en)

2-2. Code Instruction

・CodeAlpaca 20k (en)

2-3. Chat

・JMultiWOZ: Japanese Multi-Domain Wizard-of-Oz Dataset (ja)
・ja conv wikipedia llama2pro8b (ja)
　・shi3z/ja_conv_wikipedia_orion14B_100K
　・shi3z/ja_conv_wikipedia_llama2pro8b_30k

・UltraChat (en)
・ShareGPT Hyperfiltered (en)
・UltraChat 200k (en)
・LMSYS Chat 1M (en)

3. Preferenceデータセット

・OpenRLHF (ja)
　・ryota39/dpo-ja-194k
　・ryota39/dpo-ja-45k
　・ryota39/boolq-3k-ja
　・ryota39/truthy-dpo-ja
・chatbot-arena-ja-calm2-7b-chat-experimental (ja)
　・cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental
・shisa-en-ja-dpo-v1 (ja)
　・augmxnt/shisa-en-ja-dpo-v1
・HH-RLHF (ja)
　・fujiki/japanese_hh-rlhf-49k
　・kunishou/hh-rlhf-49k-ja

・Open Assistant (multilingual)

・HH-RLHF (en)
・GPT-4 Generated Data (en&zh)
・Nectar (en)

4. タスク別データセット

4-1. マルチモーダル

・LLaVA (ja)
　・turing-motors/LLaVA-Instruct-150K-JA
　・toshi456/llava-jp-1.3b-v1.0

・M2UGen (en)
　・M2UGen/MUCaps
　・M2UGen/MUImage
　・M2UGen/MUVideo
　・M2UGen/MUEdit

4-2. キャラクター対話

・つくよみちゃん会話AI育成計画 (ja)
　・会話テキストデータセット配布
・日本語オープンコンテンツデータセットプロジェクトページ (ja)
　・https://open_contents_datasets.gitlab.io/project_home/
・ずんだもんデータセット (ja)
　・takaaki-inada/databricks-dolly-15k-ja-zundamon
　・alfredplpl/simple-zundamon

4-3. AITuber特化型質問応答

・aituber question dataset (ja)
　・sr2mg/aituber_question_dataset

4-4. 対話要約

・dialogsum (ja)
　・sudy-super/dialogsum-ja

4-5. 日本語論文コーパス

・J-ResearchCorpus (ja)
　・kunishou/J-ResearchCorpus

4-6. SteerLM 向けのデータセット

・HelpSteer (ja)
　・kunishou/HelpSteer-35k-ja
・HelpSteer (en)
　・nvidia/HelpSteer

5. データセット作成ツール

・distilabel

6. 関連

この記事が気に入ったらサポートをしてみませんか？