![見出し画像](https://assets.st-note.com/production/uploads/images/131909777/rectangle_large_type_2_5296143b0b120834d767300f36af887e.png?width=800)
トランスフォーマーの論文を読む⑤注意
今回は「モデルの構造」からセクション3. 2の「アテンション」を読み進めます。アテンションはよく「注意」と訳されますが、あまりしっくりこない気がします。まだ「注目」の方がいいかなとも思いますが、この記事では英語のAttentionをカタカナ読みした「アテンション」で通します。
このセクションでは次の二つの図が登場します。
![](https://assets.st-note.com/img/1708763883951-4hZ3lW3Uik.png?width=800)
(左)スケールされた内積アテンション
(右)多頭アテンション
多頭アテンションも「マルチヘッド・アテンション」の方が響きが良いかもしれないですが、この記事では「多頭アテンション」としています。そもそも英語名「Multi-Head Attention」をそのまま使う方が良いのかもしれませんが。
上図を見るとわかるように、左の「スケールされた内積アテンション」は、右の「多頭アテンション」の中で使われています。つまり、「スケールされた内積アテンション」が複数あるのが「多頭アテンション」ということになります。
では、そもそも「スケールされた内積アテンション」はどのような仕組みを持ち、何を目指しているのでしょうか。
この記事が気に入ったらサポートをしてみませんか?