「LLM」の ベンチマーク をまとめました。
1. 人間を評価者としたベンチマーク
最も信頼できるベンチマーク。コストがかかるのが欠点。
2. GPT-4を評価者としたベンチマーク
冗長な回答を高く評価しやすいことや、GPT-4に似た回答を高く評価しやすいのが欠点。
3. 一問一答によるベンチマーク
テキスト生成 (文章生成、コード生成、要約など) の能力を測定できないのが欠点。
4. コード生成のベンチマーク
コード生成の性能を測定するベンチマーク。
5. 埋め込みのベンチマーク
埋め込みの性能を測定するベンチマーク。
6. タスク別のベンチマーク
6-1. マルチモーダルビデオ理解のベンチマーク
6-2. Text-to-Videoのベンチマーク
6-3. 長文QA性能のベンチマーク
6-4. ロールプレイのベンチマーク
6-5. 金融のベンチマーク
6-6. 音声認識のベンチマーク
6-7. 音声合成のベンチマーク
7. LLMの詳細情報
「LLM」の詳細情報 (VRAM (GB)、Context Len など)を確認できるサイト。
参考