トランスフォーマーの論文を読む⑤注意
今回は「モデルの構造」からセクション3. 2の「アテンション」を読み進めます。アテンションはよく「注意」と訳されますが、あまりしっくりこない気がします。まだ「注目」の方がいいかなとも思いますが、この記事では英語のAttentionをカタカナ読みした「アテンション」で通します。
このセクションでは次の二つの図が登場します。
多頭アテンションも「マルチヘッド・アテンション」の方が響きが良いかもしれないですが、この記事では「多頭アテンション」としています。そもそも英語名「Mul