LLM のデータセットまとめ
LLMのデータセットをまとめました。
1. 事前学習データセット
1-1. Text
1-2. Code
2. SFTデータセット
2-1. Instruction
2-2. Code Instruction
2-3. Chat
3. Preferenceデータセット
4. タスク別データセット
4-1. マルチモーダル
4-2. キャラクター対話
4-3. AITuber特化型質問応答
4-4. 対話要約
4-5. 日本語論文コーパス
4-6. SteerLM 向けのデータセット
5. データセット作成ツール
6. 関連
この記事が気に入ったらサポートをしてみませんか?