トランスフォーマーの論文を読む④全体

2024年2月14日 08:03

今回から「モデルの構造」のセクションを読み解いていきます。これによって論文の図１を掘り下げながら理解していきます。

まずはトランスフォーマーの全体像をざっくり理解することを目指します。

そもそもオリジナルのトランスフォーマーは、機械翻訳モデルです。つまり、入力文章（例えば英文）を受け取って出力文章（例えばフランス語）を生成します。

よって、トランスフォーマーを鳥瞰してみると、以下のようになります。

ここでは、英語の文章「Hello world!」がフランス語の「Bonjour le monde!」と翻訳されています。

でも、このままだと上述の論文の図１とは全然似ていませんね。そこで、この記事では、論文を読み解きながらトランスフォーマーの鳥瞰図から論文の図１へ徐々に近づけるように解説していきます。

ここから先は

8,783字 / 14画像

¥1,000 / 月

初月無料

人工知能、機械学習、ディープラーニング関連の用語説明、研究論文の概要、プログラミングの具体例などの読み応えのある新しい記事が月に４−５本ほど追加されます。また、気になるAIニュースや日常の雑観などは随時公開しています。

この記事が気に入ったらサポートをしてみませんか？