マガジンのカバー画像

トランスフォーマーを理解する

23
2017年に、Googleの研究者であるAshish Vaswaniらのチームが発表したトランスフォーマー (Transformer)のアーキテクチャは、近年におけるディープラー…
運営しているクリエイター

#アテンション機構

トランスフォーマーの論文を読む⑤注意

今回は「モデルの構造」からセクション3. 2の「アテンション」を読み進めます。アテンションはよく「注意」と訳されますが、あまりしっくりこない気がします。まだ「注目」の方がいいかなとも思いますが、この記事では英語のAttentionをカタカナ読みした「アテンション」で通します。 このセクションでは次の二つの図が登場します。 多頭アテンションも「マルチヘッド・アテンション」の方が響きが良いかもしれないですが、この記事では「多頭アテンション」としています。そもそも英語名「Mul

トランスフォーマーの論文を読む①要約

以前に紹介した論文の読み方に従って、トランスフォーマーの論文である「Attention Is All You Need」を読んでみます。 Googleブレインの研究者だったAshish Vaswaniらによるよるこの論文は、BERT、GPTなどの多数の派生言語モデルを生み出すもとになっており、言語モデルに興味がある人ならその名前を知らない人はいないぐらいに有名です。 主な目的としては、アテンション機構と呼ばれる文章から文脈を読み取る仕組みを理解することです。そのため実験結