「LLM」の ベンチマーク をまとめました。
1. マルチモーダルのベンチマーク
マルチモーダルのベンチマーク。
2. 人間を評価者としたベンチマーク
最も信頼できるベンチマーク。コストがかかるのが欠点。
3. LLMを評価者としたベンチマーク
冗長な回答を高く評価しやすいことや、評価者となったLLMに似た回答を高く評価しやすいのが欠点。
4. 一問一答によるベンチマーク
テキスト生成 (文章生成、コード生成、要約など) の能力を測定できないのが欠点。
5. その他のベンチマーク
5-1. コード生成のベンチマーク
5-2. 埋め込みのベンチマーク
5-3. 長文QA性能のベンチマーク
5-4. ロールプレイのベンチマーク
5-5. カスタマーサポートのベンチマーク
6. LLMの詳細情報
「LLM」の詳細情報 (VRAM (GB)、Context Len など)を確認できるサイト。
参考