ログイン
会員登録
WILDBENCH
書いてみる
関連タグ
#オープンエンド生成 (2)
#タスク (7,022)
#ベンチマーク (436)
#モデル (13,750)
#実世界データ (3)
#言語モデル (270)
人気
急上昇
新着
定番
有料のみ
1件
人気の記事一覧
WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
Ikemen Mas Kot
3か月前