LLM のベンチマークまとめ

npaka

2023年8月20日 22:44

「LLM」のベンチマークをまとめました。

1. マルチモーダルのベンチマーク

マルチモーダルのベンチマーク。

・Heron VLM リーダーボード (wandb) 【日本語】

2. 人間を評価者としたベンチマーク

最も信頼できるベンチマーク。コストがかかるのが欠点。

・ELYZA Tasks 100 (ELYZA) 【日本語】
・Chatbot Arena (LMSys) 【日本語】

3. LLMを評価者としたベンチマーク

冗長な回答を高く評価しやすいことや、評価者となったLLMに似た回答を高く評価しやすいのが欠点。

「Nejumi LLMリーダーボード 3」「日本語LLM評価」「shaberiベンチマーク」には「一問一答のベンチマーク」も含まれます。

・Nejumi LLMリーダーボード 3 (wandb) 【日本語】
・日本語LLM評価 (swallow) 【日本語】
・shaberiベンチマーク (shisa-ai) 【日本語】

・MT-Bench (LMSys)
・Alpaca-Eval (Tatsu Lab)
・The Rakuda Ranking of Japanese AI (YuzuAI) 【日本語】

4. 一問一答によるベンチマーク

テキスト生成 (文章生成、コード生成、要約など) の能力を測定できないのが欠点。

・JP Language Model Evaluation Harness (Stability AI) 【日本語】
・Open LLM Leaderboard (HuggingFace)
・YALL - Yet Another LLM Leaderboard (mlabonne)

5. その他のベンチマーク

5-1. コード生成のベンチマーク

・Multilingual Code Models Evaluation (bigcode)

5-2. 埋め込みのベンチマーク

・JapaneseEmbeddingEval (@_oshizo_) 【日本語AI】
・MTEB Leaderboard (mteb)

5-3. 長文QA性能のベンチマーク

・日本語モデルの長文QA性能の比較 (@_oshizo_) 【日本語】

5-4. ロールプレイのベンチマーク

・japanese-llm-roleplay-benchmark (@_oshizo_) 【日本語】
・Ayumi's LLM Role Play & ERP Ranking (Weird Constructor)

5-5. カスタマーサポートのベンチマーク

・karakuri-bench-v0.1 (karakuri-ai) 【日本語】

6. LLMの詳細情報

「LLM」の詳細情報 (VRAM (GB)、Context Len など)を確認できるサイト。

・Comparison of AI
・LLM Explorer: Large Language Model Directory and Analytics

この記事が気に入ったらサポートをしてみませんか？