トランスフォーマーの論文を読む⑤注意
今回は「モデルの構造」からセクション3. 2の「アテンション」を読み進めます。アテンションはよく「注意」と訳されますが、あまりしっくりこない気がします。まだ「注目」の方がいいかなとも思いますが、この記事では英語のAttentionをカタカナ読みした「アテンション」で通します。
このセクションでは次の二つの図が登場します。
多頭アテンションも「マルチヘッド・アテンション」の方が響きが良いかもしれないですが、この記事では「多頭アテンション」としています。そもそも英語名「Multi-Head Attention」をそのまま使う方が良いのかもしれませんが。
上図を見るとわかるように、左の「スケールされた内積アテンション」は、右の「多頭アテンション」の中で使われています。つまり、「スケールされた内積アテンション」が複数あるのが「多頭アテンション」ということになります。
では、そもそも「スケールされた内積アテンション」はどのような仕組みを持ち、何を目指しているのでしょうか。
この記事が気に入ったらサポートをしてみませんか?