マガジンのカバー画像

トランスフォーマーを理解する

23
2017年に、Googleの研究者であるAshish Vaswaniらのチームが発表したトランスフォーマー (Transformer)のアーキテクチャは、近年におけるディープラー…
運営しているクリエイター

2024年2月の記事一覧

トランスフォーマーの論文を読む⑤注意

今回は「モデルの構造」からセクション3. 2の「アテンション」を読み進めます。アテンションはよく「注意」と訳されますが、あまりしっくりこない気がします。まだ「注目」の方がいいかなとも思いますが、この記事では英語のAttentionをカタカナ読みした「アテンション」で通します。 このセクションでは次の二つの図が登場します。 多頭アテンションも「マルチヘッド・アテンション」の方が響きが良いかもしれないですが、この記事では「多頭アテンション」としています。そもそも英語名「Mul

トランスフォーマーの論文を読む④全体

今回から「モデルの構造」のセクションを読み解いていきます。これによって論文の図1を掘り下げながら理解していきます。 まずはトランスフォーマーの全体像をざっくり理解することを目指します。 そもそもオリジナルのトランスフォーマーは、機械翻訳モデルです。つまり、入力文章(例えば英文)を受け取って出力文章(例えばフランス語)を生成します。 よって、トランスフォーマーを鳥瞰してみると、以下のようになります。 ここでは、英語の文章「Hello world!」がフランス語の「Bon

トランスフォーマーの論文を読む③方針

今回は、トランスフォーマーの論文である「Attention Is All You Need」の論文を構成を掴みながら図や表などに目を通します。まだ、要約や結論を読んでいない方は前回の記事や前々回の記事を参考にしてください。 今回も、論文のセクションを読む順番は、以前に紹介した論文の読み方に大体従っています。特に、論文の構成を掴んでどのセクションに注力して読むのかを決定します。