MetaによるLlama-2の公開を受け、ファインチューニングしたモデルが多数リリースされている。「FreeWilly2」はそのうちの一つで、StableDiffusionで有名なStability AIが手掛けたこともあり注目を集めている。詳細はこちらの記事に詳しい。
「FreeWilly2」は、LLaMA-2の70Bベースモデルを微調整しており、一部のタスクで「GPT-3.5」に匹敵するパフォーマンスを示すとのこと。
オープンLLMのベンチマーク評価をまとめたHuggingFaceの「Open LLM Leaderboard」でも、7月23日時点でトップにランクインしている。
何が「ChatGPT並み」なのか
オープンLLMのモデルリリースで「GPT3.5に匹敵」とアピールされることは半ば通例化しており、Llama-1派生モデルのVicunaやWizard LMもそうだったし、オリジナルのLlama-2のリリース時もそうだった。
さて、先述のChatGPTとの比較表では、「FreeWilly2」は「ARC」ではChatGPTと差があるものの、「HellaSwag」と「MMLU」ではChatGPTとほぼ同水準となっている(各ベンチマークの詳細は後述)。
ところが「Open LLM Leaderboard」をよく見ると、「HellaSwag」と「MMLU」では、ベースモデルである「Llama-2-70B」の方が「FreeWilly2」を若干上回っていることがわかる。以下にまとめてみる。
つまり、「FreeWilly2」においてChatGPT並みと言える「HellaSwag」「MMLU」のスコアは、実はベースモデルの「Llama-2-70B」の段階ですでに同水準以上に達している。Stability AIが示す比較表にオリジナルの「Llama-2-70B」が含まれなかった理由が察せられる。
「FreeWilly2」の特徴はむしろ、「Llama-2-70B」の苦手領域において改善が見られるところにありそう。
「FreeWilly2」が得意なのは「TruthfulQA」
「FreeWilly2」が「Llama-2-70B」より優れているのは「ARC」と「TruthfulQA」のスコアであり、特に「TruthfulQA」において大差で勝っている(44.9 vs 59.4)。
「TruthfulQA」とは「ウェブ上でよく見られる虚偽を言語モデルが再現するかどうかを測定するテスト」であるらしい。具体的な問題例を引用すると以下のとおり。
私の理解が正しければ、「TruthfulQA」は「引っかけ問題や一般に流布するデマへの耐性」を測るテストのようだ。質問文に誤った前提情報が含まれたり、陰謀論や偽科学に絡むトピックが含まれる場合に、LLMが不適切な回答を回避できるかどうか測定している。
つまり「FreeWilly2」は、引っかけ問題や偽情報に強くなった「Llama-2-70B」であると言えそうだ。
Open LLM Leaderboardの評価手法
ところで、Open LLM Leaderboardの他の3つのベンチマークはどのようなものなのか。「TruthfulQA」以外も気になったので簡単に調べてみた。
「ARC(AI2 Reasoning Challenge)」(25-shot)
ARCは、小学生レベルの理科の4択問題。この項目では、「FreeWilly2」(71%)は「GPT3.5」(85%)には差があるが、「Llama-2-70B」(67%)は上回っている。
「HellaSwag」(10-shot)
HellaSwagは、人間にとっては簡単だが(~95%)LLMにとっては間違えやすい常識問題。この項目で「GPT3.5」「Llama-2-70B」「FreeWilly2」はほぼ同等のスコアを得ている(正答率85-90%程度)。
「MMLU」(5-shot)
MMLUは様々な学問分野の理解度を測定する4択問題。数学、米国史、コンピュータサイエンス、法律など57のタスクをカバー。大学レベルの専門科目も多く含まれており、ざっと見る限りけっこう難しい。この項目で「GPT3.5」「Llama-2-70B」「FreeWilly2」は同等のスコア(正答率70%程度)を示す。
Open LLM Leaderboardの課題
ということで、おおざっぱに言うと「Open LLM Leaderboard」におけるモデルの評価には、科学的・学術的な知識や推論を測るベンチマーク(「ARC」「MMLU」)と、常識感覚やアラインメントの適切さを測るベンチマーク(「HellaSwag」「TruthfulQA」)が使われている。
いずれも回答選択式のテストで、記述問題は含まれない。よって、文章のライティングや要約、コーディングなどの能力は、現時点で「Open LLM Leaderboard」では測定されていないことに注意したい。
余談だが、「Open LLM Leaderboard」のスコアは頻繁に修正が繰り返されるようで、時々RedditのローカルLLM板でも槍玉に上がっている。最近も、「Llama-2-70B-hf」の順位が「upstage/llama-30b-instruct-2048」に抜かれたあと、再修正されて「Llama-2-70B-hf」が上に戻されたりしている。
いずれにしても、現時点でLLMの評価手法に特に定まったものがあるわけではないらしく、面白そう。「Open LLM Leaderboard」以外によく見かける「LMSYS Leaderboard」や「AlpacaEval Leaderboard」についても、何かのついでに調べてみたい。