トランスフォーマーの論文を読む⑦前方
前回に引き続き、今回も論文を読みながらトランスフォーマーの仕組みを解説します。特に、位置ごとのフィードフォワード(Position-wise Feed-Forward Network)にフォーカスします。
下図にあるように、位置ごとのフィードフォワードはトランスフォーマーのエンコーダとデコーダの両方で使われています。
アテンションが文章からの文脈を取り入れているとすると、位置ごとのフィードフォワードは何をしているのでしょうか。そもそも「位置ごと」とはどう言う意味でしょうか