前回に引き続き、論文を読み進めていきます。今回は、埋め込みにフォーカスします。
埋め込みに関しては、エンコーダ・ブロックやデコーダ・ブロックの外側の話になります。下図の上部の「線形層」、「ソフトマックス」と書かれている部分や、下部の「入力文章の埋め込み」、「出力文章の埋め込み」と書かれている部分です。
では、論文のセクション3.4「Embeddings and Softmax」(埋め込みとソフトマックス)を読んでいきましょう。
今回は、トランスフォーマーの論文である「Attention Is All You Need」の論文を構成を掴みながら図や表などに目を通します。まだ、要約や結論を読んでいない方は前回の記事や前々回の記事を参考にしてください。
今回も、論文のセクションを読む順番は、以前に紹介した論文の読み方に大体従っています。特に、論文の構成を掴んでどのセクションに注力して読むのかを決定します。
トランスフォーマーの論文を読む②結論
今回は、トランスフォーマーの論文である「Attention Is All You Need」の結論から読んでいきます。まだ、要約を読んでいない方は前回の記事を参考にしてください。
なお、論文のセクションを読む順番は、以前に紹介した論文の読み方に大体従っています。
トランスフォーマーの論文を読む①要約
以前に紹介した論文の読み方に従って、トランスフォーマーの論文である「Attention Is All You Need」を読んでみます。
Googleブレインの研究者だったAshish Vaswaniらによるよるこの論文は、BERT、GPTなどの多数の派生言語モデルを生み出すもとになっており、言語モデルに興味がある人ならその名前を知らない人はいないぐらいに有名です。
主な目的としては、アテンション機構と呼ばれる文章から文脈を読み取る仕組みを理解することです。そのため実験結