ログイン
会員登録
WILDBENCH
書いてみる
関連タグ
#オープンエンド生成 (2)
#タスク (6,094)
#ベンチマーク (394)
#モデル (12,462)
#実世界データ (2)
#言語モデル (260)
人気
急上昇
新着
定番
有料のみ
1件
人気の記事一覧
WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
Ikemen Mas Kot
2週間前