トランスフォーマーの論文を読む⑤注意

2024年2月25日 13:31

今回は「モデルの構造」からセクション3. 2の「アテンション」を読み進めます。アテンションはよく「注意」と訳されますが、あまりしっくりこない気がします。まだ「注目」の方がいいかなとも思いますが、この記事では英語のAttentionをカタカナ読みした「アテンション」で通します。

このセクションでは次の二つの図が登場します。

多頭アテンションも「マルチヘッド・アテンション」の方が響きが良いかもしれないですが、この記事では「多頭アテンション」としています。そもそも英語名「Multi-Head Attention」をそのまま使う方が良いのかもしれませんが。

上図を見るとわかるように、左の「スケールされた内積アテンション」は、右の「多頭アテンション」の中で使われています。つまり、「スケールされた内積アテンション」が複数あるのが「多頭アテンション」ということになります。

では、そもそも「スケールされた内積アテンション」はどのような仕組みを持ち、何を目指しているのでしょうか。

ここから先は

13,026字 / 9画像

¥1,000 / 月

初月無料

人工知能、機械学習、ディープラーニング関連の用語説明、研究論文の概要、プログラミングの具体例などの読み応えのある新しい記事が月に４−５本ほど追加されます。また、気になるAIニュースや日常の雑観などは随時公開しています。

この記事が気に入ったらサポートをしてみませんか？