LLM のベンチマーク まとめ
「LLM」の ベンチマーク をまとめました。
1. マルチモーダルのベンチマーク
マルチモーダルのベンチマーク。
1-1. Heron VLM リーダーボード (wandb) 【日本語】
「Japanese-Heron-Bench」 「LLaVA-Bench-In-the-Wild (Japanese)」の総合評価。
1-2. JA-VLM-Bench-In-the-Wild (SakanaAI) 【日本語】
42枚の画像に対して計50問の質問。日本に関する知識を要求。
1-3. LLaVA-Bench-In-the-Wild 【英語】
24枚の画像に対して計60問の質問。
1-4. Chatbot Arena (LMSys) 【英語】
人間が異なるモデルを匿名で比較し、どちらのモデルがより優れた応答をしたかを投票することでランキングを形成。
1-5. JMMMU リーダーボード 【日本語】
大学レベルの主題知識と意図的推論を必要とする複数分野タスクでマルチモーダルを評価するように設計されたベンチマーク。
2. 人間を評価者としたベンチマーク
最も信頼できるベンチマーク。コストがかかるのが欠点。
2-1. Chatbot Arena (LMSys) 【多言語】
人間が異なるモデルを匿名で比較し、どちらのモデルがより優れた応答をしたかを投票することでランキングを形成。
2-2. ELYZA Task 100 (ELYZA) 【日本語】
計100問の質問。日本に関する知識を要求。
LLM評価者を利用することも可能。
3. LLMを評価者としたベンチマーク
冗長な回答を高く評価しやすいことや、評価者となったLLMに似た回答を高く評価しやすいのが欠点。
3-1. Nejumi LLMリーダーボード 3 (wandb) 【日本語】
「Japanese MT-bench」「llm-jp-eval」「アラインメント」の総合評価。
3-2. 日本語LLM評価 (swallow) 【日本語】
「日本語理解・生成タスク」「日本語マルチターン対話タスク(日本語MT-Bench)」「英語理解・生成タスク」の総合評価。
3-3. shaberiベンチマーク (shisa-ai) 【日本語】
「Tengu Bench」「ELYZA Tasks 100」「Japanese MT-Bench」「Rakuda Bench」の総合評価。
4. ソフトウェア開発のベンチマーク
4-1. SWE-bench 【英語】
複数のファイルにまたがる変更や、既存のコードベースとの整合性を考慮する必要がある複雑なタスクを含む。
4-2. Multilingual Code Models Evaluation (bigcode) 【英語】
比較的独立した単一のコード生成タスク。
「HumanEval」と「MultiPL-E」の総合評価。
5. 数学のベンチマーク
5-1. MathVista 【英語】
5-2 MSGS 【多言語】
6. 多言語性能評価ベンチマーク
6-1. MMMLU 【多言語】
7. ロールプレイのベンチマーク
7-1. Japanese-RP-Bench (@Aratako_LM) 【日本語】
7-2. japanese-llm-roleplay-benchmark (@_oshizo_) 【日本語】
7-3. Ayumi's LLM Role Play & ERP Ranking (Weird Constructor) 【英語】
8. 埋め込みのベンチマーク
8-1. JapaneseEmbeddingEval (@_oshizo_) 【日本語】
8-2. JMTEB 【日本語】
8-3. MTEB Leaderboard (mteb) 【多言語】
9. カスタマーサポートのベンチマーク
9-1. karakuri-bench-v0.1 (karakuri-ai) 【日本語】
関連
この記事が気に入ったらサポートをしてみませんか?