「#評価ベンチマーク」の人気タグ記事一覧｜note ――つくる、つながる、とどける。

WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild

3か月前

Scenarios and Approaches for Situated Natural Language Explanations

3か月前

HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models

4か月前

SimPO: Simple Preference Optimization with a Reference-Free Reward

4か月前

Hallucination of Multimodal Large Language Models: A Survey

4か月前

Instruction-Following Evaluation for Large Language Models

5か月前

MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities

1年前