トランスフォーマーを理解する

本

2017年に、Googleの研究者であるAshish Vaswaniらのチームが発表したトランスフォーマー（Transformer）のアーキテクチャは、近年におけるディープラー…

運営しているクリエイター: 澁谷直樹

#エンコーダ

トランスフォーマーの論文を読む⑧埋込

前回に引き続き、論文を読み進めていきます。今回は、埋め込みにフォーカスします。埋め込みに関しては、エンコーダ・ブロックやデコーダ・ブロックの外側の話になります。下図の上部の「線形層」、「ソフトマックス」と書かれている部分や、下部の「入力文章の埋め込み」、「出力文章の埋め込み」と書かれている部分です。では、論文のセクション3.4「Embeddings and Softmax」（埋め込みとソフトマックス）を読んでいきましょう。

トランスフォーマーの論文を読む④全体

今回から「モデルの構造」のセクションを読み解いていきます。これによって論文の図１を掘り下げながら理解していきます。まずはトランスフォーマーの全体像をざっくり理解することを目指します。そもそもオリジナルのトランスフォーマーは、機械翻訳モデルです。つまり、入力文章（例えば英文）を受け取って出力文章（例えばフランス語）を生成します。よって、トランスフォーマーを鳥瞰してみると、以下のようになります。ここでは、英語の文章「Hello world!」がフランス語の「Bon

トランスフォーマーの自己アテンションの理解⑧デコーダ・ブロックの詳細

本シリーズの記事リスト第一弾トークン数値化の歴史第二弾再帰による文脈伝搬第三弾レコメンダーと内積第四弾位置エンコーディング第五弾エンコーダ・デコーダ第六弾クエリとキーとバリュー第七弾エンコーダ・ブロックの詳細第八弾デコーダ・ブロックの詳細この記事では、デコーダ・ブロックの詳細を解説をします。論文の図１の右側になります。特に、デコーダ・ブロックの内部にあるマスクされたマルチヘッド・アテンション（Masked Multi-h

トランスフォーマーの自己アテンションの理解⑤エンコーダ・デコーダ

本シリーズの記事リスト第一弾トークン数値化の歴史第二弾再帰による文脈伝搬第三弾レコメンダーと内積第四弾位置エンコーディング第五弾エンコーダ・デコーダ第六弾クエリとキーとバリュー第七弾エンコーダ・ブロックの詳細第八弾デコーダ・ブロックの詳細この記事では、トランスフォーマーで翻訳をする際の枠組みであるエンコーダ・デコーダを解説します。翻訳モデルであるトランスフォーマーの全体像を掴むことで後々に解説するアテンションの詳細を理解する