見出し画像

WizardLM - より複雑な命令を自己生成して能力向上 Evol-Instruct

  • Evol-Instructという学習データ生成のアイデアを用いて、自己生成したデータでファインチューニングした「WizardLM」の紹介論文と、GitHubのREADME.mdをななめ読みしてみました。

  • LLaMAのファインチューニング系の高性能なLLMには、先日試してみたairobos-13bなどがありますが、airobosの場合は gpt-4 を蒸留して、いわば劣化コピーをつくっている感じなのに対して、こちらはEvol-Instruct のアイデアを使って自力で能力向上を狙っており、志が高い感じがします。

1.Evol-Instruct のアイデア

  • Evol-Instructは、人間の代わりにLLMを利用して、様々な難易度やスキル範囲をバランスよく調整した、オープンドメインのデータセットを生成。(Self-instructのアイデアを発展・改良したもののようです。)

Evol-Instruct生成の流れ
Evol-Instructの例

(参考)Self-Instructの概要 https://github.com/yizhongw/self-instruct

2.性能評価

FastChat提案のGPT-4での自動評価フレームワークでの評価結果 
  • Evol-Instructで生成したデータセットは、人間が生成したデータセットのShareGPTを用いたモデルVicunaよりも優秀な結果を達成している。Vicuna-7B/13Bと同量のデータを用いた WizardLM-7B/13B の性能はVicunaを大幅に上回っている。

  • WizardLM-30Bの性能は、Guanakco-60Bよりも優秀な結果となり、リファレンスのChatGPTに迫る性能。

様々なスキルにおけるWizardLM-30Bのパフォーマンス
  • Evol-InstructテストセットでのWizardLM-30BとChatGPT(gpt-3.5-turbo)との比較ではWizardLM-30B が ChatGPT のパフォーマンスの平均 97.8% 、18 のスキルでほぼ 100% (かそれ以上)となった。

  • データセットがWizardLMにかなり有利になっている可能性はありますが、複雑な課題に対してより Evol-Instruct がパフォーマンスを出していることは注目です。

3.感想

  • 新しいアイデアがすごい勢いで発表されて、実際に手元のPCでも試すことができる楽しい時代になったものだと、しみじみ。

  • 今回は時間の都合で試せませんが、例によってLLaMA-13B/30Bからの差分ファイルが用意されていますので、ぜひお試しください!

  • 日本語のデータセットも、このアイデアでガンガン強化できるかもしれません。お強い方!学生さん!期待してます!😊

現場からは以上です。



この記事が気に入ったらサポートをしてみませんか?