RedPajama の概要
「RedPajama」の概要を軽くまとめました。
1. RedPajama
「RedPajama」は、再現可能で完全にオープンな言語モデルを作成するための取り組みです。
2023年4月17日、「RedPajama」の最初の取り組みとして、「RedPajamaベースデータセット」がリリースされました。
2. RedPajamaベースデータセット
LLaMA論文に記載されているレシピに従って作成された1.2兆トークンの完全にオープンなデータセットです。
「RedPajama-Data-1T」は、7つのデータスライスで構成されます。
データ スライスごとに、慎重なデータの前処理とフィルタリングを行い、品質フィルターを調整して、LLaMA 論文で報告されているトークンの数とほぼ一致させています。
3. 今後の作業
事前学習データを再現したら、次のステップは強力なベースモデルを学習することになります。INCITE プログラムの一環として、 Oak Ridge Leadership Computing Facility (OLCF)の支援を受けて、モデルの完全なスイートを学習しており、最初のモデルは数週間以内に利用可能になるとのこと。
この記事が気に入ったらサポートをしてみませんか?