「#GSM8k」の人気タグ記事一覧｜note ――つくる、つながる、とどける。

【論文瞬読】大規模言語モデルの算術推論能力を適切に評価する新手法－ベンチマークデータの汚染と過学習の問題に迫る－

9か月前

10

GPT-4o（omni）の驚きと、感じたこと

y_onozaki_120（小野崎）

9か月前

A Careful Examination of Large Language Model Performance on Grade School Arithmetic

9か月前