見出し画像

LLM のベンチマーク まとめ

「LLM」の ベンチマーク をまとめました。


1. マルチモーダルのベンチマーク

マルチモーダルのベンチマーク。

Heron VLM リーダーボード (wandb) 【日本語AI】

2. 人間を評価者としたベンチマーク

最も信頼できるベンチマーク。コストがかかるのが欠点。

ELYZA Tasks 100 (ELYZA)【日本語AI】
Chatbot Arena (LMSys)【日本語AI】
日本語チャットボットアリーナ (yutohub) 【日本語AI】
SEAL Leaderboards (scale)

3. LLMを評価者としたベンチマーク

冗長な回答を高く評価しやすいことや、評価者となったLLMに似た回答を高く評価しやすいのが欠点。

Nejumi LLMリーダーボード Neo [MT-Bench] (wandb) 【日本語AI】
The Rakuda Ranking of Japanese AI (YuzuAI)【日本語AI】
MT-Bench (LMSys)
Alpaca-Eval (Tatsu Lab)

4. 一問一答によるベンチマーク

テキスト生成 (文章生成、コード生成、要約など) の能力を測定できないのが欠点。

Nejumi LLMリーダーボード Neo [llm-jp-eval] (wandb) 【日本語AI】
JP Language Model Evaluation Harness (Stability AI) 【日本語AI】
Open LLM Leaderboard (HuggingFace)
YALL - Yet Another LLM Leaderboard (mlabonne)

5. その他のベンチマーク

5-1. コード生成のベンチマーク

Multilingual Code Models Evaluation (bigcode)

5-2. 埋め込みのベンチマーク

JapaneseEmbeddingEval (@_oshizo_) 【日本語AI】
MTEB Leaderboard (mteb)

5-3. 長文QA性能のベンチマーク

日本語モデルの長文QA性能の比較 (@_oshizo_) 【日本語AI】

5-4. ロールプレイのベンチマーク

japanese-llm-roleplay-benchmark (@_oshizo_) 【日本語AI】
Ayumi's LLM Role Play & ERP Ranking (Weird Constructor)

5-5. カスタマーサポートのベンチマーク

karakuri-bench-v0.1 (karakuri-ai) 【日本語AI】

6. LLMの詳細情報

「LLM」の詳細情報 (VRAM (GB)、Context Len など)を確認できるサイト。

Comparison of AI
LLM Explorer: Large Language Model Directory and Analytics

参考



この記事が気に入ったらサポートをしてみませんか?