【論文紹介】GPT4All: Training an Assistant-style Chatbot with Large Scale Data Distillation from GPT-3.5-Turbo

2023年3月30日 16:52

この記事は，GPT4ALLというモデルについてのテクニカルレポートについての紹介記事．
GPT4ALLの学習コードなどを含むプロジェクトURLはこちら．

Data Collection and Curation

2023年3月20日～2023年3月26日に，GPT-3.5-Turbo(OpenAI API)を使用して約１００万件のプロンプトとレスポンスのペアを収集した．
使用したデータセット
- The unified_chip2 subset of LAION OIG.
- Coding questions with a random sub-sample of Stackoverflow Questions.
- Instruction-tuning with a sub-sample of Bigscience/P3.

まず，Atlasを使用してGPT-3.5-Turboがプロンプトに回答していない・不正な出力を生成した例を削除した．その結果，806,199件の高品質なプロンプトとレスポンスのペアを得た．
次にBigscience/P3のサンプルを削除した．これはGPT-3.5-Turboのレスポンスの多様性が低かったため．
最終的に437.605件のプロンプトとレスポンスのペアを得た．
各データセットの可視化リンク
- Cleaned with P3
- Cleaned without P3 (Final Training Dataset)

Model Training

LLaMA 7BをFinetuneした．最初の公開モデルはCleaned without P3データセットに対してLoRAを使用して4エポック訓練した．

訓練にかかったコストについて（訓練失敗も含む）
- 作業は４日間
- $800のGPUコスト（Lambda Labs, Paperspace）
- $500のOpenAI API費用
gpt4all-loraはLambda LabsのDGX A100 8x 80GBで約8時間，総コスト100ドルで訓練可能．

Evaluation

Self-Instructの論文[Wang+, 2022]の人間評価データを使用してモデルを評価．
評価指標はPerplexities．
比較するモデルはAlpaca-lora．
結果は下図．GPT4all は Alpaca-lora よりも低い(良い) Perplexities を示した．評価は網羅的ではないため，更なる評価は今後の課題．

User Considerations

open LLM研究が加速することを期待して，データと訓練の詳細を公開する．
GPT4ALLのモデルウェイトとデータは研究目的のみで使用可能，商用利用は禁止．GPT4ALLは非商用ライセンスを持つLLaMAをベースにしている．
アシスタントデータはOpenAIのGPT-3.5-Turboから収集したもので，その使用条件はOpenAIと競合するモデルの開発を禁止している．

[Wang+, 2022] Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith, Daniel Khashabi, and Hannaneh Hajishirzi. 2022. Self-instruct: Aligning language model with self generated instructions.

この記事が気に入ったらサポートをしてみませんか？