見出し画像

トランスフォーマーの論文を読む⑤注意

今回は「モデルの構造」からセクション3. 2の「アテンション」を読み進めます。アテンションはよく「注意」と訳されますが、あまりしっくりこない気がします。まだ「注目」の方がいいかなとも思いますが、この記事では英語のAttentionをカタカナ読みした「アテンション」で通します。

このセクションでは次の二つの図が登場します。

論文 図2
(左)スケールされた内積アテンション
(右)多頭アテンション

多頭アテンションも「マルチヘッド・アテンション」の方が響きが良いかもしれないですが、この記事では「多頭アテンション」としています。そもそも英語名「Multi-Head Attention」をそのまま使う方が良いのかもしれませんが。

上図を見るとわかるように、左の「スケールされた内積アテンション」は、右の「多頭アテンション」の中で使われています。つまり、「スケールされた内積アテンション」が複数あるのが「多頭アテンション」ということになります。

では、そもそも「スケールされた内積アテンション」はどのような仕組みを持ち、何を目指しているのでしょうか。


ここから先は

13,026字 / 9画像

キカベン・読み放題

¥1,000 / 月
初月無料
このメンバーシップの詳細

この記事が気に入ったらサポートをしてみませんか?