マガジンのカバー画像

論文を読む

24
気になった論文などを読んでまとめ
運営しているクリエイター

#OpenAI

商用LLMに肉薄する「vicuna-33b-v1.3」と、チャットLLM用のベンチマーク手法の話題

今まで13bサイズが最大だった Vicuna の33bのウェイトが公開されました。 また、主要なモデルとのベンチマーク結果も公表されています。 ベンチマーク結果ここで、見慣れないMT-benchという評価指標がありますが、Vicuna-33Bのブログ報告によれば、人間の好みにより則したチャットボットLLM のベンチマークとのことです。大規模言語モデル(LLM)のパフォーマンスを評価するためのいくつかのベンチマークが存在しますが、これらのベンチマークはLLMの人間の好みを評価