![見出し画像](https://assets.st-note.com/production/uploads/images/128753725/rectangle_large_type_2_f783c4833794de717f69dade34248ee9.png?width=800)
LLM のデータセットまとめ
LLMのデータセットをまとめました。
1. 事前学習データセット
1-1. Text
・Wikipedia (ja)
・fujiki/wiki40b_ja
・llm-jp-corpus-v2 (ja)
・llm-jp-corpus-v2
・shisa-pretrain-en-ja-v1 (ja)
・augmxnt/shisa-pretrain-en-ja-v1
・youlery (ja)
・ce-lery/mistral-3b-dataset
・ayousanz/OSCOR-2301-ja-cleaned
・ayousanz/c4-ja-cleaned
・Common Crawl (multilingual)
・Wikipedia (en)
・Wiki Demo (en)
・RefinedWeb (en)
・RedPajama V2 (en)
・Pile (en)
・SkyPile (zh)
・The Stack 2 (en)
・The Stack (en)
・StarCoder (en)
1-2. Code
2. SFTデータセット
2-1. Instruction
・cl-nagoya/auto-wiki-qa (ja)
・cl-nagoya/auto-wiki-qa
・ichikara-instruction (ja)
・ichikara-instruction
・p1atdev/ichikara-instruction
・llm-japanese-dataset (ja)
・izumi-lab/llm-japanese-dataset
・ultra-orca-boros-en-ja-v1 (ja)
・augmxnt/ultra-orca-boros-en-ja-v1
・Stanford Alpaca (ja)
・fujiki/japanese_alpaca_data
・shi3z/alpaca_cleaned_ja_json
・Dolly (ja)
・fujiki/databricks-dolly-15k-ja-reformat-v1
・kunishou/databricks-dolly-15k-ja
・bbz662bbz/databricks-dolly-15k-ja-gozaru (ござる)
・OASST1 (ja)
・fujiki/oasst1-89k-ja-reformat-v1
・kunishou/oasst1-89k-ja
・OASST2 (ja)
・kunishou/oasst2-135k-ja
・Guanaco Dataset (ja)
・fujiki/guanaco_ja
・OpenOrca (ja)
・shumpei2525/OpenOrca-train-ja
・CoTangent (ja)
・sudy-super/CoTangent
・wikipedia-qa-ja (ja)
・alfredplpl/wikipedia-qa-ja-100k
・Cosmopedia (ja)
・aixsatoshi/cosmopedia-japanese-20k
・Open Assistant (multilingual)
・Guanaco Dataset (multilingual)
・Alpaca CoT (multilingual)
・Stanford Alpaca (en)
・LIMA (en)
・OpenPlatypus (en)
・CodeAlpaca 20k (en)
・OpenOrca (en)
・MathInstruct (en)
・Nectar (en)
・AgentInstruct (en)
・Evol Instruct V2 (en)
・Cosmopedia (en)
2-2. Code Instruction
2-3. Chat
・JMultiWOZ: Japanese Multi-Domain Wizard-of-Oz Dataset (ja)
・ja conv wikipedia llama2pro8b (ja)
・shi3z/ja_conv_wikipedia_orion14B_100K
・shi3z/ja_conv_wikipedia_llama2pro8b_30k
・UltraChat (en)
・ShareGPT Hyperfiltered (en)
・UltraChat 200k (en)
・LMSYS Chat 1M (en)
3. Preferenceデータセット
・OpenRLHF (ja)
・ryota39/dpo-ja-194k
・ryota39/dpo-ja-45k
・ryota39/boolq-3k-ja
・ryota39/truthy-dpo-ja
・chatbot-arena-ja-calm2-7b-chat-experimental (ja)
・cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental
・shisa-en-ja-dpo-v1 (ja)
・augmxnt/shisa-en-ja-dpo-v1
・HH-RLHF (ja)
・fujiki/japanese_hh-rlhf-49k
・kunishou/hh-rlhf-49k-ja
・Open Assistant (multilingual)
・HH-RLHF (en)
・GPT-4 Generated Data (en&zh)
・Nectar (en)
4. タスク別データセット
4-1. マルチモーダル
・LLaVA (ja)
・turing-motors/LLaVA-Instruct-150K-JA
・toshi456/llava-jp-1.3b-v1.0
・M2UGen (en)
・M2UGen/MUCaps
・M2UGen/MUImage
・M2UGen/MUVideo
・M2UGen/MUEdit
4-2. キャラクター対話
・つくよみちゃん会話AI育成計画 (ja)
・会話テキストデータセット配布
・日本語オープンコンテンツデータセット プロジェクトページ (ja)
・https://open_contents_datasets.gitlab.io/project_home/
・ずんだもんデータセット (ja)
・takaaki-inada/databricks-dolly-15k-ja-zundamon
・alfredplpl/simple-zundamon
4-3. AITuber特化型質問応答
・aituber question dataset (ja)
・sr2mg/aituber_question_dataset
4-4. 対話要約
・dialogsum (ja)
・sudy-super/dialogsum-ja
4-5. 日本語論文コーパス
・J-ResearchCorpus (ja)
・kunishou/J-ResearchCorpus
4-6. SteerLM 向けのデータセット
・HelpSteer (ja)
・kunishou/HelpSteer-35k-ja
・HelpSteer (en)
・nvidia/HelpSteer
5. データセット作成ツール
6. 関連
この記事が気に入ったらサポートをしてみませんか?