論文を読んで学ぶ

本

論文を読みながら学ぶスタイルの記事を書きます。

運営しているクリエイター: 澁谷直樹

GPT1を読む②結論

前回は、要約を読んで論文の主張を理解しました。今回は論文の読み方に従って結論から読み進めていきます。まずは、論文の主張を簡単におさらいしてから、結論がそれをしっかりと肯定しているのか確認していきます。

GPT1を読む①要約

今回からは、OpenAIが2018年に発表した論文「Improving Language Understanding by Generative Pre-Training」を読んでいきます。これは、GPTの最初のバージョンの論文です。著者の中に、Sam Altmanを解任劇の主要人物であるIlya Sutskeverの名もあります。ちなみに、彼は AlexNet の論文の著者の一人でもあります。なお、トランスフォーマーに関する知識を必要とするので、こちらも参考にしてく

トランスフォーマーの論文を読む⑩自己

前回は、位置エンコーディングについて解説しました。今回は、自己アテンションにフォーカスしながら論文を読み進めていきます。まず、アテンションを使う３つの理由について考察します。さらに、ネットワーク内でどのように情報が流れるかについて、アテンション、回帰、畳み込みに関する計算量を使って比較します。また、アテンションを使うことで得られる解釈性についても触れます。なお、今回はこの論文を読むシリーズの最終回です。

トランスフォーマーの論文を読む⑨位置

前回は、埋め込みについて解説しました。今回は、位置エンコーディングにフォーカスしながら論文を読み進めていきます。位置エンコーディングは、前回解説した埋め込みの直後に行われる処理です。ここでいう位置とは、入力シーケンスの要素（トークン）間の順序情報を意味します。トランスフォーマーモデルでは位置エンコーディングを通じて明示的に位置情報というデータをモデルに提供する必要があります。しかし、その理由は何でしょうか。また、位置エンコーディングはどのようにして行われるのか

トランスフォーマーの論文を読む⑧埋込

前回に引き続き、論文を読み進めていきます。今回は、埋め込みにフォーカスします。埋め込みに関しては、エンコーダ・ブロックやデコーダ・ブロックの外側の話になります。下図の上部の「線形層」、「ソフトマックス」と書かれている部分や、下部の「入力文章の埋め込み」、「出力文章の埋め込み」と書かれている部分です。では、論文のセクション3.4「Embeddings and Softmax」（埋め込みとソフトマックス）を読んでいきましょう。

トランスフォーマーの論文を読む⑦前方

前回に引き続き、今回も論文を読みながらトランスフォーマーの仕組みを解説します。特に、位置ごとのフィードフォワード（Position-wise Feed-Forward Network）にフォーカスします。下図にあるように、位置ごとのフィードフォワードはトランスフォーマーのエンコーダとデコーダの両方で使われています。アテンションが文章からの文脈を取り入れているとすると、位置ごとのフィードフォワードは何をしているのでしょうか。そもそも「位置ごと」とはどう言う意味でしょうか

トランスフォーマーの論文を読む⑥多頭

前回に引き続き、今回も論文を読みながらアテンションの仕組みを解説します。特に、Multi-Head Attention（マルチヘッド・アテンション、多頭アテンション）にフォーカスします。多頭アテンションは、前回解説した「スケールされた内積アテンション」を複数使うことで、トークン間の様々な関係性に基づいたアテンションの処理を行います。この辺りまで読み進めると、クエリ、キー、バリューに関して、その意味がより明確になってきます。

トランスフォーマーの論文を読む⑤注意

今回は「モデルの構造」からセクション3. 2の「アテンション」を読み進めます。アテンションはよく「注意」と訳されますが、あまりしっくりこない気がします。まだ「注目」の方がいいかなとも思いますが、この記事では英語のAttentionをカタカナ読みした「アテンション」で通します。このセクションでは次の二つの図が登場します。多頭アテンションも「マルチヘッド・アテンション」の方が響きが良いかもしれないですが、この記事では「多頭アテンション」としています。そもそも英語名「Mul

トランスフォーマーの論文を読む④全体

今回から「モデルの構造」のセクションを読み解いていきます。これによって論文の図１を掘り下げながら理解していきます。まずはトランスフォーマーの全体像をざっくり理解することを目指します。そもそもオリジナルのトランスフォーマーは、機械翻訳モデルです。つまり、入力文章（例えば英文）を受け取って出力文章（例えばフランス語）を生成します。よって、トランスフォーマーを鳥瞰してみると、以下のようになります。ここでは、英語の文章「Hello world!」がフランス語の「Bon

トランスフォーマーの論文を読む③方針

今回は、トランスフォーマーの論文である「Attention Is All You Need」の論文を構成を掴みながら図や表などに目を通します。まだ、要約や結論を読んでいない方は前回の記事や前々回の記事を参考にしてください。今回も、論文のセクションを読む順番は、以前に紹介した論文の読み方に大体従っています。特に、論文の構成を掴んでどのセクションに注力して読むのかを決定します。

トランスフォーマーの論文を読む②結論

今回は、トランスフォーマーの論文である「Attention Is All You Need」の結論から読んでいきます。まだ、要約を読んでいない方は前回の記事を参考にしてください。なお、論文のセクションを読む順番は、以前に紹介した論文の読み方に大体従っています。

トランスフォーマーの論文を読む①要約

以前に紹介した論文の読み方に従って、トランスフォーマーの論文である「Attention Is All You Need」を読んでみます。 Googleブレインの研究者だったAshish Vaswaniらによるよるこの論文は、BERT、GPTなどの多数の派生言語モデルを生み出すもとになっており、言語モデルに興味がある人ならその名前を知らない人はいないぐらいに有名です。主な目的としては、アテンション機構と呼ばれる文章から文脈を読み取る仕組みを理解することです。そのため実験結

論文の読み方について

2024年は論文をたくさん読むぞ！と思ったかどうかはわかりませんが、この記事では論文の読み方について解説します。といっても決まったやり方があるわけではありません。それでも、あまり論文を読んだことがない方には一つの指針として参考になるでしょう。特にAI関連の論文を読むことに興味がある方を対象に解説します。