人気の記事一覧

【論文瞬読】大規模言語モデルの算術推論能力を適切に評価する新手法-ベンチマークデータの汚染と過学習の問題に迫る-

2週間前

GPT-4o(omni)の驚きと、感じたこと

A Careful Examination of Large Language Model Performance on Grade School Arithmetic

2週間前