見出し画像

airoboros: GPT-4で作成した学習データで微調整した大規模言語モデル(ほぼgpt-3.5-turbo)

2023年6月5日 03:43

Self-Instructの手法でGPT-4を使用して生成された学習データを使って、ファインチューニングされたLlaMA-13b/7bモデルが公表されていました。

モデルの概要

Self-Instructの手法でgpt-4、またはgpt-3.5-turboを用いて、人間が生成したシードを含まず学習データセットを作成(OpenAIライセンスの対象）
- airoboros-gpt4
- airoboros-gpt3.5-turbo
gpt-4で作成されたトレーニングデータで、LlaMa-13b および7bをファインチューニング
モデルの利用は、研究用途にのみに限定
学習データには、意図的に脱獄スクリプトを使用して生成されたデータも含む（いくつかの不適切なプロンプトのみ手動で削除）
ファインチューニングは、FastChatモジュールを用いて実施。13bモデルはA100 80GB x8 　約40時間で完了

Vicuna-13b系よりも頭一つ出ている感じ

比較対象のgpt-3.5-turbo(100) と肩を並べるスコア

ともかく試食してみます

Text-generation-webuiでお手軽に試してみます。Text-generation-webui のインストールは１クリックで簡単です。
また、重みファイルは、webuiのモデルタブからリポジトリ名（jondurbin/airoboros-13b-gpt4）を入力してダウンロードした後、読み込みオプションを設定して読み込みます。

実行環境：windows11 RTX 3090
量子化オプション：load-in-8bit
パラメータプリセット：LLaMA-Precise
プロンプトテンプレート：Vicuna-1.1形式

load-in-8bitオプションにてGPUメモリ14GB程度

試食の感想

全体的にとても自然な応答が出来ている印象です。
実験結果で示されたようにVicuna-13b-1.1と比べて、確かに品質が向上しているように感じられます。
データセットは英語のみのようなので、主に英語の応答が改善されているのだと思いますが、日本語の返答の品質も向上しているような気もします。（気のせいかもしれません。）

まとめ

短時間のファインチューニングで、表面的かもしれないものの、性能が追い付かれてしまうのは、OpenAIも心中穏やかではないと思います。
ほぼgpt-3.5は攻略した感じもするので、次の目標はgpt-4でしょうか…。
推測ですが、OpenAI社が2023年中に計画を公表している、「安くて早い gpt-4」は、OpenAI社内の次期 gpt-5? の蒸留で、gpt-4並みの性能を引き出した軽量モデルを "gpt-4ブランド" で売り出す感じなのでしょうか。興味が尽きません。

現場からは以上です。

この記事が気に入ったらサポートをしてみませんか？