トランスフォーマーを理解する

本

2017年に、Googleの研究者であるAshish Vaswaniらのチームが発表したトランスフォーマー（Transformer）のアーキテクチャは、近年におけるディープラー…

運営しているクリエイター: 澁谷直樹

トランスフォーマーの論文を読む⑧埋込

前回に引き続き、論文を読み進めていきます。今回は、埋め込みにフォーカスします。埋め込みに関しては、エンコーダ・ブロックやデコーダ・ブロックの外側の話になります。下図の上部の「線形層」、「ソフトマックス」と書かれている部分や、下部の「入力文章の埋め込み」、「出力文章の埋め込み」と書かれている部分です。では、論文のセクション3.4「Embeddings and Softmax」（埋め込みとソフトマックス）を読んでいきましょう。

トランスフォーマーの論文を読む⑦前方

前回に引き続き、今回も論文を読みながらトランスフォーマーの仕組みを解説します。特に、位置ごとのフィードフォワード（Position-wise Feed-Forward Network）にフォーカスします。下図にあるように、位置ごとのフィードフォワードはトランスフォーマーのエンコーダとデコーダの両方で使われています。アテンションが文章からの文脈を取り入れているとすると、位置ごとのフィードフォワードは何をしているのでしょうか。そもそも「位置ごと」とはどう言う意味でしょうか

トランスフォーマーの論文を読む⑥多頭

前回に引き続き、今回も論文を読みながらアテンションの仕組みを解説します。特に、Multi-Head Attention（マルチヘッド・アテンション、多頭アテンション）にフォーカスします。多頭アテンションは、前回解説した「スケールされた内積アテンション」を複数使うことで、トークン間の様々な関係性に基づいたアテンションの処理を行います。この辺りまで読み進めると、クエリ、キー、バリューに関して、その意味がより明確になってきます。

トランスフォーマーを理解する

2024年3月の記事一覧

トランスフォーマーの論文を読む⑧埋込

トランスフォーマーの論文を読む⑦前方

トランスフォーマーの論文を読む⑥多頭