人気の記事一覧

ChatGPTの仕組み(いつものAttentionの論文)をメタファーと数式と図解と用語集であらわす

6日前

🦜トランスフォーマーモデルは順伝播逆伝播どちらにより新規性がありましたか?

Conv-Basis: A New Paradigm for Efficient Attention Inference and Gradient Computation in Transformers

5か月前

Why "classic" Transformers are shallow and how to make them go deep

6か月前