見出し画像

LLM のベンチマーク まとめ

「LLM」の ベンチマーク をまとめました。


1. マルチモーダルのベンチマーク

マルチモーダルのベンチマーク。

1-1. Heron VLM リーダーボード (wandb) 【日本語】

「Japanese-Heron-Bench」 「LLaVA-Bench-In-the-Wild (Japanese)」の総合評価。

Japanese-Heron-Bench (Turing)
21枚の画像に対して計102問の質問。日本に関する知識を要求。
LLaVA-Bench-In-the-Wild (Japanese) (Turing)
24枚の画像に対して計60問の質問。「LLaVA-Bench-In-the-Wild」の日本訳。

1-2. JA-VLM-Bench-In-the-Wild (SakanaAI) 【日本語】

42枚の画像に対して計50問の質問。日本に関する知識を要求。

1-3. LLaVA-Bench-In-the-Wild 【英語】

24枚の画像に対して計60問の質問。

1-4. Chatbot Arena (LMSys) 【英語】

人間が異なるモデルを匿名で比較し、どちらのモデルがより優れた応答をしたかを投票することでランキングを形成。

Chatbot Arena Leaderboard  ※ タブで Arena (Vision) を選択

1-5. JMMMU リーダーボード 【日本語】

大学レベルの主題知識と意図的推論を必要とする複数分野タスクでマルチモーダルを評価するように設計されたベンチマーク。

2. 人間を評価者としたベンチマーク

最も信頼できるベンチマーク。コストがかかるのが欠点。

2-1. Chatbot Arena (LMSys) 【多言語】

人間が異なるモデルを匿名で比較し、どちらのモデルがより優れた応答をしたかを投票することでランキングを形成。

Chatbot Arena Leaderboard  ※ Categoryで Japanese を選択

2-2. ELYZA Task 100 (ELYZA) 【日本語】

計100問の質問。日本に関する知識を要求。
LLM評価者を利用することも可能。

3. LLMを評価者としたベンチマーク

冗長な回答を高く評価しやすいことや、評価者となったLLMに似た回答を高く評価しやすいのが欠点。

3-1. Nejumi LLMリーダーボード 3  (wandb) 【日本語】

「Japanese MT-bench」「llm-jp-eval」「アラインメント」の総合評価。

Japanese MT-bench (StabilityAI)
日本語での言語生成能力を評価するためのベンチマーク。
llm-jp-eval (LLM-jp)
日本語での言語理解能力を評価するためのベンチマーク

3-2. 日本語LLM評価 (swallow) 【日本語】

「日本語理解・生成タスク」「日本語マルチターン対話タスク(日本語MT-Bench)」「英語理解・生成タスク」の総合評価。

3-3. shaberiベンチマーク (shisa-ai) 【日本語】

「Tengu Bench」「ELYZA Tasks 100」「Japanese MT-Bench」「Rakuda Bench」の総合評価。

Tengu Bench
大規模言語モデル(LLM)評価用データセット。
ELYZA Tasks 100 (ELYZA)
計100問の質問。日本に関する知識を要求。
Japanese MT-bench (StabilityAI)
日本語での言語生成能力を評価するためのベンチマーク。
The Rakuda Ranking of Japanese AI  (YuzuAI)
4カテゴリ計40問の質問。

4. ソフトウェア開発のベンチマーク

4-1. SWE-bench 【英語】

複数のファイルにまたがる変更や、既存のコードベースとの整合性を考慮する必要がある複雑なタスクを含む。

SWE-bench Lite
300サンプルに対して自動的に収集されたデータ検証を行う。迅速。
SWE-bench Verified (OpenAI)
500サンプルに対して人間の専門家による厳密な検証を行う。信頼性が高い。
SWE-bench Full
2,294サンプルに対して自動的に収集されたデータ検証を行う。包括的。

4-2. Multilingual Code Models Evaluation (bigcode) 【英語】

比較的独立した単一のコード生成タスク。
「HumanEval」と「MultiPL-E」の総合評価。

HumanEval (OpenAI)
Pythonのプログラミング問題を解く能力を評価。計164問。
MultiPL-E
HumanEvalの問題を複数のプログラミング言語に翻訳。
22のプログラミング言語をサポート。

5. 数学のベンチマーク

5-1. MathVista 【英語】

5-2 MSGS 【多言語】

6. 多言語性能評価ベンチマーク

6-1. MMMLU 【多言語】

7. ロールプレイのベンチマーク

7-1. Japanese-RP-Bench (@Aratako_LM) 【日本語】

7-2. japanese-llm-roleplay-benchmark (@_oshizo_) 【日本語】

7-3. Ayumi's LLM Role Play & ERP Ranking (Weird Constructor) 【英語】

8. 埋め込みのベンチマーク

8-1. JapaneseEmbeddingEval (@_oshizo_) 【日本語】

JapaneseEmbeddingEval

8-2. JMTEB 【日本語】

8-3. MTEB Leaderboard (mteb) 【多言語】

9. カスタマーサポートのベンチマーク

9-1. karakuri-bench-v0.1 (karakuri-ai) 【日本語】

関連



この記事が気に入ったらサポートをしてみませんか?