RedPajama の概要

npaka

2023年4月18日 15:06

「RedPajama」の概要を軽くまとめました。

1. RedPajama

「RedPajama」は、再現可能で完全にオープンな言語モデルを作成するための取り組みです。

1. 高品質で広範囲をカバーする事前学習データの作成
2. 大規模に学習するベースモデルの作成
3. Instructionチューニングデータとモデルの作成

2023年4月17日、「RedPajama」の最初の取り組みとして、「RedPajamaベースデータセット」がリリースされました。

2. RedPajamaベースデータセット

LLaMA論文に記載されているレシピに従って作成された1.2兆トークンの完全にオープンなデータセットです。

「RedPajama-Data-1T」は、7つのデータスライスで構成されます。

・CommonCrawl : CommonCrawlの5 つのダンプ。CCNet パイプラインを使用して処理され、Wikipediaのようなページを選択する線形分類器を含むいくつかの品質フィルターを介してフィルター処理されます。
・C4 : 標準C4データセット
・GitHub : ライセンスと品質でフィルタリングされたGitHubデータ
・arXiv : 定型文を削除した科学記事
・書籍 : コンテンツの類似性によって重複排除された、オープンな書籍コーパス
・Wikipedia : ボイラープレートを削除したWikipediaページのサブセット
・StackExchange : 定型文を削除した、StackExchange の下にある人気のある Webサイトのサブセット

データスライスごとに、慎重なデータの前処理とフィルタリングを行い、品質フィルターを調整して、LLaMA 論文で報告されているトークンの数とほぼ一致させています。

3. 今後の作業

事前学習データを再現したら、次のステップは強力なベースモデルを学習することになります。INCITE プログラムの一環として、 Oak Ridge Leadership Computing Facility (OLCF)の支援を受けて、モデルの完全なスイートを学習しており、最初のモデルは数週間以内に利用可能になるとのこと。

この記事が気に入ったらサポートをしてみませんか？