論文を読む

本

気になった論文などを読んでまとめ

運営しているクリエイター: はまち

#OpenAI

商用LLMに肉薄する「vicuna-33b-v1.3」と、チャットLLM用のベンチマーク手法の話題

今まで13bサイズが最大だった Vicuna の33bのウェイトが公開されました。また、主要なモデルとのベンチマーク結果も公表されています。ベンチマーク結果ここで、見慣れないMT-benchという評価指標がありますが、Vicuna-33Bのブログ報告によれば、人間の好みにより則したチャットボットLLM のベンチマークとのことです。大規模言語モデル（LLM）のパフォーマンスを評価するためのいくつかのベンチマークが存在しますが、これらのベンチマークはLLMの人間の好みを評価