ログイン
会員登録
評価ベンチマーク
書いてみる
関連タグ
#モデル (13,750)
#言語モデル (270)
#幻覚 (1,451)
#評価 (19,331)
#IFEval (1)
#LLMs (223)
人気
急上昇
新着
定番
有料のみ
7件
人気の記事一覧
WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
Ikemen Mas Kot
3か月前
Scenarios and Approaches for Situated Natural Language Explanations
Ikemen Mas Kot
3か月前
HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models
Ikemen Mas Kot
4か月前
SimPO: Simple Preference Optimization with a Reference-Free Reward
Ikemen Mas Kot
4か月前
Hallucination of Multimodal Large Language Models: A Survey
Ikemen Mas Kot
4か月前
Instruction-Following Evaluation for Large Language Models
Ikemen Mas Kot
5か月前
MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities
Ikemen Mas Kot
1年前