見出し画像

FreeWilly - StabilityAIとCarperAIによるLLM

以下の記事が面白かったので、簡単にまとめました。

Meet FreeWilly, Our Large And Mighty Instruction Fine-Tuned Models


1. FreeWilly

Stability AI」と「CarperAI」は、2つの強力な新しいオープンなLLMである「FreeWilly1」とその後継の「FreeWilly2」を発表しました。どちらのモデルも、さまざまなベンチマークで優れた推論能力を示しています。「FreeWilly1」 は、オリジナルの「LLaMA 65B」のベースモデルを活用し、標準 Alpaca 形式の 「SFT」(Supervised Fine-Tune) を使用して、新しいデータセットで慎重にファインチューニングされました。 同様に、「FreeWilly2」は「LLaMA 2 70B」のベースモデルを活用し、一部のタスクについて「GPT-3.5」と同等のパフォーマンスを達成しました。

2. データの生成と収集

「FreeWilly」の学習は、Microsoft が論文「Orca: Progressive Learning from Complex Explanation Traces of GPT-4.」の方法論から直接インスピレーションを受けています。 データ生成プロセスは似ていますが、データソースが異なります。

600,000 個のデータ ポイント (元の Orca 論文で使用されたデータセットサイズの約 10%) を含むデータセットのバリアントは、Enrico Shippoleによって作成された次のデータセットからの高品質な命令で言語モデルをプロンプトすることによって作成されました。

COT Submix Original
NIV2 Submix Original
FLAN 2021 Submix Original
T0 Submix Original

このアプローチにより、1つの単純なLLMを使用して 500,000 の例を生成し、より洗練された LLMを使用してさらに 100,000 の例を生成しました。 公平な比較を確保するために、これらのデータセットを慎重にフィルタリングし、評価ベンチマークに由来する例を削除しました。元のOrca論文の10分の1のサンプルサイズで学習したにもかかわらず (元の論文と比較して、モデルの学習にかかるコストと二酸化炭素排出量が大幅に削減されました)、結果として得られた「FreeWilly」は、さまざまなベンチマークにわたって優れたパフォーマンスを示し、合成的に生成されたデータセットに対するアプローチが検証されました。

3. 性能評価

これらのモデルを内部で評価するために、EleutherAIの「lm-eval-harness」を使用し、これに「AGIEval」を追加しました。

どちらのモデルも、複雑な推論、言語の微妙な点の理解、特殊な領域に関連する複雑な質問への回答など、多くの分野で優れています。

3-1. Open LLM Leaderboard

これらのFreeWillyの結果は、StabilityAIによって評価され、2023年7月21日にHuggingFaceによって独自に再現され、Leaderboardに公開されました。

3-2. GPT4ALL benchmarks (all 0-shot)

3-3. AGI Eval (all 0-shot)



この記事が気に入ったらサポートをしてみませんか?