![見出し画像](https://assets.st-note.com/production/uploads/images/130622077/rectangle_large_type_2_7b073e8af3edc391d9fee6ff062a8d42.png?width=800)
トランスフォーマーの論文を読む④全体
今回から「モデルの構造」のセクションを読み解いていきます。これによって論文の図1を掘り下げながら理解していきます。
![](https://assets.st-note.com/img/1707717433884-5UJpzIUvZ9.png)
まずはトランスフォーマーの全体像をざっくり理解することを目指します。
そもそもオリジナルのトランスフォーマーは、機械翻訳モデルです。つまり、入力文章(例えば英文)を受け取って出力文章(例えばフランス語)を生成します。
よって、トランスフォーマーを鳥瞰してみると、以下のようになります。
![](https://assets.st-note.com/img/1707717722784-Qu8S8Wz9NS.png?width=800)
ここでは、英語の文章「Hello world!」がフランス語の「Bonjour le monde!」と翻訳されています。
でも、このままだと上述の論文の図1とは全然似ていませんね。そこで、この記事では、論文を読み解きながらトランスフォーマーの鳥瞰図から論文の図1へ徐々に近づけるように解説していきます。
この記事が気に入ったらサポートをしてみませんか?