マガジンのカバー画像

トランスフォーマーを理解する

22
2017年に、Googleの研究者であるAshish Vaswaniらのチームが発表したトランスフォーマー (Transformer)のアーキテクチャは、近年におけるディープラー…
運営しているクリエイター

#エンコーダ

トランスフォーマーの論文を読む⑧埋込

前回に引き続き、論文を読み進めていきます。今回は、埋め込みにフォーカスします。 埋め込みに関しては、エンコーダ・ブロックやデコーダ・ブロックの外側の話になります。下図の上部の「線形層」、「ソフトマックス」と書かれている部分や、下部の「入力文章の埋め込み」、「出力文章の埋め込み」と書かれている部分です。 では、論文のセクション3.4「Embeddings and Softmax」(埋め込みとソフトマックス)を読んでいきましょう。

トランスフォーマーの論文を読む④全体

今回から「モデルの構造」のセクションを読み解いていきます。これによって論文の図1を掘り下げながら理解していきます。 まずはトランスフォーマーの全体像をざっくり理解することを目指します。 そもそもオリジナルのトランスフォーマーは、機械翻訳モデルです。つまり、入力文章(例えば英文)を受け取って出力文章(例えばフランス語)を生成します。 よって、トランスフォーマーを鳥瞰してみると、以下のようになります。 ここでは、英語の文章「Hello world!」がフランス語の「Bon

トランスフォーマーの自己アテンションの理解⑧デコーダ・ブロックの詳細

本シリーズの記事リスト 第一弾 トークン数値化の歴史 第二弾 再帰による文脈伝搬 第三弾 レコメンダーと内積 第四弾 位置エンコーディング 第五弾 エンコーダ・デコーダ 第六弾 クエリとキーとバリュー 第七弾 エンコーダ・ブロックの詳細 第八弾 デコーダ・ブロックの詳細 この記事では、デコーダ・ブロックの詳細を解説をします。論文の図1の右側になります。 特に、デコーダ・ブロックの内部にあるマスクされたマルチヘッド・アテンション(Masked Multi-h

トランスフォーマーの自己アテンションの理解⑤エンコーダ・デコーダ

本シリーズの記事リスト 第一弾 トークン数値化の歴史 第二弾 再帰による文脈伝搬 第三弾 レコメンダーと内積 第四弾 位置エンコーディング 第五弾 エンコーダ・デコーダ 第六弾 クエリとキーとバリュー 第七弾 エンコーダ・ブロックの詳細 第八弾 デコーダ・ブロックの詳細 この記事では、トランスフォーマーで翻訳をする際の枠組みであるエンコーダ・デコーダを解説します。翻訳モデルであるトランスフォーマーの全体像を掴むことで後々に解説するアテンションの詳細を理解する