WizardLM - より複雑な命令を自己生成して能力向上 Evol-Instruct
Evol-Instructという学習データ生成のアイデアを用いて、自己生成したデータでファインチューニングした「WizardLM」の紹介論文と、GitHubのREADME.mdをななめ読みしてみました。
LLaMAのファインチューニング系の高性能なLLMには、先日試してみたairobos-13bなどがありますが、airobosの場合は gpt-4 を蒸留して、いわば劣化コピーをつくっている感じなのに対して、こちらはEvol-Instruct のアイデアを使って自力で能力向上を狙っており、志が高い感じがします。
1.Evol-Instruct のアイデア
Evol-Instructは、人間の代わりにLLMを利用して、様々な難易度やスキル範囲をバランスよく調整した、オープンドメインのデータセットを生成。(Self-instructのアイデアを発展・改良したもののようです。)
2.性能評価
Evol-Instructで生成したデータセットは、人間が生成したデータセットのShareGPTを用いたモデルVicunaよりも優秀な結果を達成している。Vicuna-7B/13Bと同量のデータを用いた WizardLM-7B/13B の性能はVicunaを大幅に上回っている。
WizardLM-30Bの性能は、Guanakco-60Bよりも優秀な結果となり、リファレンスのChatGPTに迫る性能。
Evol-InstructテストセットでのWizardLM-30BとChatGPT(gpt-3.5-turbo)との比較ではWizardLM-30B が ChatGPT のパフォーマンスの平均 97.8% 、18 のスキルでほぼ 100% (かそれ以上)となった。
データセットがWizardLMにかなり有利になっている可能性はありますが、複雑な課題に対してより Evol-Instruct がパフォーマンスを出していることは注目です。
3.感想
新しいアイデアがすごい勢いで発表されて、実際に手元のPCでも試すことができる楽しい時代になったものだと、しみじみ。
今回は時間の都合で試せませんが、例によってLLaMA-13B/30Bからの差分ファイルが用意されていますので、ぜひお試しください!
日本語のデータセットも、このアイデアでガンガン強化できるかもしれません。お強い方!学生さん!期待してます!😊
現場からは以上です。
この記事が気に入ったらサポートをしてみませんか?