LLM のベンチマーク まとめ
「LLM」の ベンチマーク をまとめました。
1. マルチモーダルのベンチマークマルチモーダルのベンチマーク。
2. 人間を評価者としたベンチマーク最も信頼できるベンチマーク。コストがかかるのが欠点。
3. LLMを評価者としたベンチマーク冗長な回答を高く評価しやすいことや、評価者となったLLMに似た回答を高く評価しやすいのが欠点。
4. 一問一答によるベンチマークテキスト生成 (文章生成、コード生成、要約など) の能力を測定できないのが欠点。
5. その他のベンチ