見出し画像

LLM のベンチマーク まとめ

「LLM」の ベンチマーク をまとめました。


1. マルチモーダルのベンチマーク

マルチモーダルのベンチマーク。

Heron VLM リーダーボード (wandb) 【日本語】

2. 人間を評価者としたベンチマーク

最も信頼できるベンチマーク。コストがかかるのが欠点。

ELYZA Tasks 100 (ELYZA) 【日本語】
Chatbot Arena (LMSys) 【日本語】

3. LLMを評価者としたベンチマーク

冗長な回答を高く評価しやすいことや、評価者となったLLMに似た回答を高く評価しやすいのが欠点。

「Nejumi LLMリーダーボード 3」「日本語LLM評価」「shaberiベンチマーク」には「一問一答のベンチマーク」も含まれます。

Nejumi LLMリーダーボード 3  (wandb) 【日本語】
日本語LLM評価 (swallow) 【日本語】
shaberiベンチマーク (shisa-ai) 【日本語】

MT-Bench (LMSys)
Alpaca-Eval (Tatsu Lab)
The Rakuda Ranking of Japanese AI (YuzuAI) 【日本語】

4. 一問一答によるベンチマーク

テキスト生成 (文章生成、コード生成、要約など) の能力を測定できないのが欠点。

JP Language Model Evaluation Harness (Stability AI) 【日本語】
Open LLM Leaderboard (HuggingFace)
YALL - Yet Another LLM Leaderboard (mlabonne)

5. その他のベンチマーク

5-1. コード生成のベンチマーク

Multilingual Code Models Evaluation (bigcode)

5-2. 埋め込みのベンチマーク

JapaneseEmbeddingEval (@_oshizo_) 【日本語AI】
MTEB Leaderboard (mteb)

5-3. 長文QA性能のベンチマーク

日本語モデルの長文QA性能の比較 (@_oshizo_) 【日本語】

5-4. ロールプレイのベンチマーク

japanese-llm-roleplay-benchmark (@_oshizo_) 【日本語】
Ayumi's LLM Role Play & ERP Ranking (Weird Constructor)

5-5. カスタマーサポートのベンチマーク

karakuri-bench-v0.1 (karakuri-ai) 【日本語】

6. LLMの詳細情報

「LLM」の詳細情報 (VRAM (GB)、Context Len など)を確認できるサイト。

Comparison of AI
LLM Explorer: Large Language Model Directory and Analytics



この記事が気に入ったらサポートをしてみませんか?