「LLM」の ベンチマーク をまとめました。
1. マルチモーダルのベンチマーク
マルチモーダルのベンチマーク。
1-1. Chatbot Arena (LMSys) 【英語】
人間が異なるモデルを匿名で比較し、どちらのモデルがより優れた応答をしたかを投票することでランキングを形成。
1-2. Heron VLM リーダーボード (wandb) 【日本語】
「Japanese-Heron-Bench」 「LLaVA-Bench-In-the-Wild (Japanese)」の総合評価。
1-3. JA-VLM-Bench-In-the-Wild (SakanaAI) 【日本語】
42枚の画像に対して計50問の質問。日本に関する知識を要求。
1-4. JMMMU リーダーボード 【日本語】
大学レベルの主題知識と意図的推論を必要とする複数分野タスクでマルチモーダルを評価するように設計されたベンチマーク。
2. LLMのベンチマーク
2-1. Chatbot Arena (LMSys) 【多言語】
人間が異なるモデルを匿名で比較し、どちらのモデルがより優れた応答をしたかを投票することでランキングを形成。
2-2. Nejumi LLMリーダーボード 3 (wandb) 【日本語】
「Japanese MT-bench」「llm-jp-eval」「アラインメント」の総合評価。
2-3. オープン日本語LLMリーダーボード (LLM-jp) 【日本語】
16種類以上のNLPタスクを用いて日本語LLMの性能を評価。
2-4. shaberiベンチマーク (shisa-ai) 【日本語】
「Tengu Bench」「ELYZA Tasks 100」「Japanese MT-Bench」「Rakuda Bench」の総合評価。
3. ソフトウェア開発のベンチマーク
3-1. SWE-bench 【英語】
複数のファイルにまたがる変更や、既存のコードベースとの整合性を考慮する必要がある複雑なタスクを含む。
3-2. Multilingual Code Models Evaluation (bigcode) 【英語】
比較的独立した単一のコード生成タスク。
「HumanEval」と「MultiPL-E」の総合評価。
4. 数学のベンチマーク
4-1. MathVista 【英語】
4-2 MSGS 【多言語】
5. 多言語性能評価ベンチマーク
5-1. MMMLU 【多言語】
6. ロールプレイのベンチマーク
6-1. Japanese-RP-Bench (@Aratako_LM) 【日本語】
6-2. japanese-llm-roleplay-benchmark (@_oshizo_) 【日本語】
6-3. Ayumi's LLM Role Play & ERP Ranking (Weird Constructor) 【英語】
7. 埋め込みのベンチマーク
7-1. JapaneseEmbeddingEval (@_oshizo_) 【日本語】
7-2. JMTEB 【日本語】
7-3. MTEB Leaderboard (mteb) 【多言語】
8. カスタマーサポートのベンチマーク
8-1. karakuri-bench-v0.1 (karakuri-ai) 【日本語】
関連