商用LLMに肉薄する「vicuna-33b-v1.3」と、チャットLLM用のベンチマーク手法の話題
今まで13bサイズが最大だった Vicuna の33bのウェイトが公開されました。
また、主要なモデルとのベンチマーク結果も公表されています。
ベンチマーク結果ここで、見慣れないMT-benchという評価指標がありますが、Vicuna-33Bのブログ報告によれば、人間の好みにより則したチャットボットLLM のベンチマークとのことです。大規模言語モデル(LLM)のパフォーマンスを評価するためのいくつかのベンチマークが存在しますが、これらのベンチマークはLLMの人間の好みを評価