【論文紹介】GPT4All: Training an Assistant-style Chatbot with Large Scale Data Distillation from GPT-3.5-Turbo

この記事は,GPT4ALLというモデルについてのテクニカルレポートについての紹介記事.
GPT4ALLの学習コードなどを含むプロジェクトURLはこちら

Data Collection and Curation

2023年3月20日~2023年3月26日に,GPT-3.5-Turbo(OpenAI API)を使用して約100万件のプロンプトとレスポンスのペアを収集した.
使用したデータセット
- The unified_chip2 subset of LAION OIG.
- Coding questions with a random sub-sample of Stackoverflow Questions.
- Instruction-tuning with a sub-sample of Bigscience/P3.

まず,Atlasを使用してGPT-3.5-Turboがプロンプトに回答していない・不正な出力を生成した例を削除した.その結果,806,199件の高品質なプロンプトとレスポンスのペアを得た.
次にBigscience/P3のサンプルを削除した.これはGPT-3.5-Turboのレスポンスの多様性が低かったため.
最終的に437.605件のプロンプトとレスポンスのペアを得た.
各データセットの可視化リンク
Cleaned with P3
Cleaned without P3 (Final Training Dataset)

Model Training

LLaMA 7BをFinetuneした.最初の公開モデルはCleaned without P3データセットに対してLoRAを使用して4エポック訓練した.

訓練にかかったコストについて(訓練失敗も含む)
- 作業は4日間
- $800のGPUコスト(Lambda Labs, Paperspace)
- $500のOpenAI API費用
gpt4all-loraはLambda LabsのDGX A100 8x 80GBで約8時間,総コスト100ドルで訓練可能.

Evaluation

Self-Instructの論文[Wang+, 2022]の人間評価データを使用してモデルを評価.
評価指標はPerplexities.
比較するモデルはAlpaca-lora
結果は下図.GPT4all は Alpaca-lora よりも低い(良い) Perplexities を示した.評価は網羅的ではないため,更なる評価は今後の課題.

図は論文から引用.

User Considerations

open LLM研究が加速することを期待して,データと訓練の詳細を公開する.
GPT4ALLのモデルウェイトとデータは研究目的のみで使用可能,商用利用は禁止.GPT4ALLは非商用ライセンスを持つLLaMAをベースにしている.
アシスタントデータはOpenAIのGPT-3.5-Turboから収集したもので,その使用条件はOpenAIと競合するモデルの開発を禁止している.


[Wang+, 2022] Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith, Daniel Khashabi, and Hannaneh Hajishirzi. 2022. Self-instruct: Aligning language model with self generated instructions.

この記事が気に入ったらサポートをしてみませんか?