見出し画像

LLM のベンチマーク まとめ

「LLM」の ベンチマーク をまとめました。


1. 人間を評価者としたベンチマーク

最も信頼できるベンチマーク。コストがかかるのが欠点。

ELYZA Tasks 100 (ELYZA)【日本語AI】
日本語チャットボットアリーナ (yutohub) 【日本語AI】
Chatbot Arena (LMSys)

2. GPT-4を評価者としたベンチマーク

冗長な回答を高く評価しやすいことや、GPT-4に似た回答を高く評価しやすいのが欠点。

Nejumi LLMリーダーボード Neo [MT-Bench] (wandb) 【日本語AI】
The Rakuda Ranking of Japanese AI (YuzuAI)【日本語AI】
MT-Bench (LMSys)
Alpaca-Eval (Tatsu Lab)

3. 一問一答によるベンチマーク

テキスト生成 (文章生成、コード生成、要約など) の能力を測定できないのが欠点。

Nejumi LLMリーダーボード Neo [llm-jp-eval] (wandb) 【日本語AI】
JP Language Model Evaluation Harness (Stability AI) 【日本語AI】
Open LLM Leaderboard (HuggingFace)
YALL - Yet Another LLM Leaderboard (mlabonne)

4. コード生成のベンチマーク

コード生成の性能を測定するベンチマーク。

Multilingual Code Models Evaluation (bigcode)

5. 埋め込みのベンチマーク

埋め込みの性能を測定するベンチマーク。

JapaneseEmbeddingEval (@_oshizo_) 【日本語AI】
MTEB Leaderboard (mteb)

6. タスク別のベンチマーク

6-1. マルチモーダルビデオ理解のベンチマーク

MVBench Leaderboard (OpenGVLab)

6-2. Text-to-Videoのベンチマーク

EvalCrafter Leaderboard (Tencent)

6-3. 長文QA性能のベンチマーク

日本語モデルの長文QA性能の比較 (@_oshizo_) 【日本語AI】

6-4. ロールプレイのベンチマーク

japanese-llm-roleplay-benchmark (@_oshizo_) 【日本語AI】
Ayumi's LLM Role Play & ERP Ranking (Weird Constructor)

6-5. 金融のベンチマーク

Japanese Language Model Financial Evaluation Harness (pfnet-research) 【日本語AI】

6-6. 音声認識のベンチマーク

JSUT-book + A100上での認識精度・速度の測定 (Reazon Human Interaction Lab) 【日本語】
Open ASR Leaderboard (HuggingFace)

6-7. 音声合成のベンチマーク

TTS Arena (HuggingFace)

7. LLMの詳細情報

「LLM」の詳細情報 (VRAM (GB)、Context Len など)を確認できるサイト。

Comparison of AI
LLM Explorer: Large Language Model Directory and Analytics

参考



この記事が気に入ったらサポートをしてみませんか?