ログイン
会員登録
layernorm
書いてみる
関連タグ
#ディープラーニング (4,763)
#トランスフォーマー (988)
#ニューラルネットワーク (644)
#モデル (12,482)
#勾配降下法 (19)
#学習 (26,076)
人気
急上昇
新着
定番
有料のみ
1件
人気の記事一覧
Small-scale proxies for large-scale Transformer training instabilities
Ikemen Mas Kot
1か月前