見出し画像

LLM のベンチマーク まとめ

「LLM」の ベンチマーク をまとめました。


1. マルチモーダルのベンチマーク

マルチモーダルのベンチマーク。

1-1. Chatbot Arena (LMSys) 【英語】

人間が異なるモデルを匿名で比較し、どちらのモデルがより優れた応答をしたかを投票することでランキングを形成。

Chatbot Arena Leaderboard  ※ タブで Arena (Vision) を選択

1-2. Heron VLM リーダーボード (wandb) 【日本語】

「Japanese-Heron-Bench」 「LLaVA-Bench-In-the-Wild (Japanese)」の総合評価。

Japanese-Heron-Bench (Turing)
21枚の画像に対して計102問の質問。日本に関する知識を要求。
LLaVA-Bench-In-the-Wild (Japanese) (Turing)
24枚の画像に対して計60問の質問。「LLaVA-Bench-In-the-Wild」の日本訳。

1-3. JA-VLM-Bench-In-the-Wild (SakanaAI) 【日本語】

42枚の画像に対して計50問の質問。日本に関する知識を要求。

1-4. JMMMU リーダーボード 【日本語】

大学レベルの主題知識と意図的推論を必要とする複数分野タスクでマルチモーダルを評価するように設計されたベンチマーク。

2. LLMのベンチマーク

2-1. Chatbot Arena (LMSys) 【多言語】

人間が異なるモデルを匿名で比較し、どちらのモデルがより優れた応答をしたかを投票することでランキングを形成。

Chatbot Arena Leaderboard  ※ Categoryで Japanese を選択

2-2. Nejumi LLMリーダーボード 3  (wandb) 【日本語】

「Japanese MT-bench」「llm-jp-eval」「アラインメント」の総合評価。

Japanese MT-bench (StabilityAI)
日本語での言語生成能力を評価するためのベンチマーク。
llm-jp-eval (LLM-jp)
日本語での言語理解能力を評価するためのベンチマーク

2-3. オープン日本語LLMリーダーボード (LLM-jp) 【日本語】

16種類以上のNLPタスクを用いて日本語LLMの性能を評価。

llm-jp-eval (LLM-jp)
日本語での言語理解能力を評価するためのベンチマーク

2-4. shaberiベンチマーク (shisa-ai) 【日本語】

「Tengu Bench」「ELYZA Tasks 100」「Japanese MT-Bench」「Rakuda Bench」の総合評価。

Tengu Bench
大規模言語モデル(LLM)評価用データセット。
ELYZA Tasks 100 (ELYZA)
計100問の質問。日本に関する知識を要求。
Japanese MT-bench (StabilityAI)
日本語での言語生成能力を評価するためのベンチマーク。
The Rakuda Ranking of Japanese AI  (YuzuAI)
4カテゴリ計40問の質問。

3. ソフトウェア開発のベンチマーク

3-1. SWE-bench 【英語】

複数のファイルにまたがる変更や、既存のコードベースとの整合性を考慮する必要がある複雑なタスクを含む。

SWE-bench Lite
300サンプルに対して自動的に収集されたデータ検証を行う。迅速。
SWE-bench Verified (OpenAI)
500サンプルに対して人間の専門家による厳密な検証を行う。信頼性が高い。
SWE-bench Full
2,294サンプルに対して自動的に収集されたデータ検証を行う。包括的。

3-2. Multilingual Code Models Evaluation (bigcode) 【英語】

比較的独立した単一のコード生成タスク。
「HumanEval」と「MultiPL-E」の総合評価。

HumanEval (OpenAI)
Pythonのプログラミング問題を解く能力を評価。計164問。
MultiPL-E
HumanEvalの問題を複数のプログラミング言語に翻訳。
22のプログラミング言語をサポート。

4. 数学のベンチマーク

4-1. MathVista 【英語】

4-2 MSGS 【多言語】

5. 多言語性能評価ベンチマーク

5-1. MMMLU 【多言語】

6. ロールプレイのベンチマーク

6-1. Japanese-RP-Bench (@Aratako_LM) 【日本語】

6-2. japanese-llm-roleplay-benchmark (@_oshizo_) 【日本語】

6-3. Ayumi's LLM Role Play & ERP Ranking (Weird Constructor) 【英語】

7. 埋め込みのベンチマーク

7-1. JapaneseEmbeddingEval (@_oshizo_) 【日本語】

JapaneseEmbeddingEval

7-2. JMTEB 【日本語】

7-3. MTEB Leaderboard (mteb) 【多言語】

8. カスタマーサポートのベンチマーク

8-1. karakuri-bench-v0.1 (karakuri-ai) 【日本語】

関連



いいなと思ったら応援しよう!