LLM のベンチマークまとめ

2023年8月20日 22:44

「LLM」のベンチマークをまとめました。

1. マルチモーダルのベンチマーク

マルチモーダルのベンチマーク。

1-1. Heron VLM リーダーボード (wandb) 【日本語】

「Japanese-Heron-Bench」「LLaVA-Bench-In-the-Wild (Japanese)」の総合評価。

・Japanese-Heron-Bench (Turing)
21枚の画像に対して計102問の質問。日本に関する知識を要求。
・LLaVA-Bench-In-the-Wild (Japanese) (Turing)
24枚の画像に対して計60問の質問。「LLaVA-Bench-In-the-Wild」の日本訳。

1-2. JA-VLM-Bench-In-the-Wild (SakanaAI) 【日本語】

42枚の画像に対して計50問の質問。日本に関する知識を要求。

1-3. LLaVA-Bench-In-the-Wild 【英語】

24枚の画像に対して計60問の質問。

1-4. Chatbot Arena (LMSys) 【英語】

人間が異なるモデルを匿名で比較し、どちらのモデルがより優れた応答をしたかを投票することでランキングを形成。

・Chatbot Arena Leaderboard ※ タブで Arena (Vision) を選択

2. 人間を評価者としたベンチマーク

最も信頼できるベンチマーク。コストがかかるのが欠点。

2-1. Chatbot Arena (LMSys) 【多言語】

人間が異なるモデルを匿名で比較し、どちらのモデルがより優れた応答をしたかを投票することでランキングを形成。

・Chatbot Arena Leaderboard ※ Categoryで Japanese を選択

2-2. ELYZA Task 100 (ELYZA) 【日本語】

計100問の質問。日本に関する知識を要求。
LLM評価者を利用することも可能。

3. LLMを評価者としたベンチマーク

冗長な回答を高く評価しやすいことや、評価者となったLLMに似た回答を高く評価しやすいのが欠点。

3-1. Nejumi LLMリーダーボード 3 (wandb) 【日本語】

「Japanese MT-bench」「llm-jp-eval」「アラインメント」の総合評価。

・Japanese MT-bench (StabilityAI)
日本語での言語生成能力を評価するためのベンチマーク。
・llm-jp-eval (LLM-jp)
日本語での言語理解能力を評価するためのベンチマーク

3-2. 日本語LLM評価 (swallow) 【日本語】

「日本語理解・生成タスク」「日本語マルチターン対話タスク（日本語MT-Bench）」「英語理解・生成タスク」の総合評価。

3-3. shaberiベンチマーク (shisa-ai) 【日本語】

「Tengu Bench」「ELYZA Tasks 100」「Japanese MT-Bench」「Rakuda Bench」の総合評価。

・Tengu Bench
大規模言語モデル(LLM)評価用データセット。
・ELYZA Tasks 100 (ELYZA)
計100問の質問。日本に関する知識を要求。
・Japanese MT-bench (StabilityAI)
日本語での言語生成能力を評価するためのベンチマーク。
・The Rakuda Ranking of Japanese AI (YuzuAI)
4カテゴリ計40問の質問。

4. コード生成のベンチマーク

4-1. Multilingual Code Models Evaluation (bigcode) 【英語】

「HumanEval」と「MultiPL-E」の総合評価。

・HumanEval (OpenAI)
Pythonのプログラミング問題を解く能力を評価。計164問。
・MultiPL-E
HumanEvalの問題を複数のプログラミング言語に翻訳。
22のプログラミング言語をサポート。

LLM のベンチマークまとめ

1. マルチモーダルのベンチマーク

1-1. Heron VLM リーダーボード (wandb) 【日本語】

1-2. JA-VLM-Bench-In-the-Wild (SakanaAI) 【日本語】

1-3. LLaVA-Bench-In-the-Wild 【英語】

1-4. Chatbot Arena (LMSys) 【英語】

2. 人間を評価者としたベンチマーク

2-1. Chatbot Arena (LMSys) 【多言語】

2-2. ELYZA Task 100 (ELYZA) 【日本語】

3. LLMを評価者としたベンチマーク

3-1. Nejumi LLMリーダーボード 3 (wandb) 【日本語】

3-2. 日本語LLM評価 (swallow) 【日本語】

3-3. shaberiベンチマーク (shisa-ai) 【日本語】

4. コード生成のベンチマーク

4-1. Multilingual Code Models Evaluation (bigcode) 【英語】

5. 数学のベンチマーク

5-1. MathVista 【英語】

6. ロールプレイのベンチマーク

6-1. japanese-llm-roleplay-benchmark (@_oshizo_) 【日本語】

6-2. Ayumi's LLM Role Play & ERP Ranking (Weird Constructor) 【英語】

7. 埋め込みのベンチマーク

7-1. JapaneseEmbeddingEval (@_oshizo_) 【日本語】

7-2. MTEB Leaderboard (mteb) 【多言語】

8. カスタマーサポートのベンチマーク

8-1. karakuri-bench-v0.1 (karakuri-ai) 【日本語】

LLM のベンチマーク まとめ

1. マルチモーダルのベンチマーク

1-1. Heron VLM リーダーボード (wandb) 【日本語】

1-2. JA-VLM-Bench-In-the-Wild (SakanaAI) 【日本語】

1-3. LLaVA-Bench-In-the-Wild 【英語】

1-4. Chatbot Arena (LMSys) 【英語】

2. 人間を評価者としたベンチマーク

2-1. Chatbot Arena (LMSys) 【多言語】

2-2. ELYZA Task 100 (ELYZA) 【日本語】

3. LLMを評価者としたベンチマーク

3-1. Nejumi LLMリーダーボード 3 (wandb) 【日本語】

3-2. 日本語LLM評価 (swallow) 【日本語】

3-3. shaberiベンチマーク (shisa-ai) 【日本語】

4. コード生成のベンチマーク

4-1. Multilingual Code Models Evaluation (bigcode) 【英語】

5. 数学のベンチマーク

5-1. MathVista 【英語】

6. ロールプレイのベンチマーク

6-1. japanese-llm-roleplay-benchmark (@_oshizo_) 【日本語】

6-2. Ayumi's LLM Role Play & ERP Ranking (Weird Constructor) 【英語】

7. 埋め込みのベンチマーク

7-1. JapaneseEmbeddingEval (@_oshizo_) 【日本語】

7-2. MTEB Leaderboard (mteb) 【多言語】

8. カスタマーサポートのベンチマーク

8-1. karakuri-bench-v0.1 (karakuri-ai) 【日本語】

LLM のベンチマークまとめ