トランスフォーマーの自己アテンションの理解②回帰による文脈伝搬

2022年12月13日 23:15

本シリーズの記事リスト

この記事ではあまり数式を使わずに、トランスフォーマー以前の言語モデル、RNN（リカレント・ニューラルネットワーク、回帰型ニューラルネットワーク）を文脈の伝搬の仕組みとして捉え解説します。RNNがLSTM（Long short-term memory、長・短期記憶）へと進化し、文脈の保存と切り捨てをコントロールできるモデルの学習が可能となりました。さらに、アテンションやエンコーダ・デコーダの概念も登場し、トランスフォーマーの仕組みを理解する役者が出揃ってきます。

では、さっそく始めましょう。

トランスフォーマー以前

2017年に発表されたトランスフォーマーは、例えば、英語の文章をフランス語へ翻訳するといったタスクを行うのですが、当時は主流だったRNN（リカレント・ニューラルネットワーク、回帰型ニューラルネットワーク）を使わない新しい手法でした。ではRNNはいつ頃から研究されたのでしょうか。

RNNの歴史は結構古く1980年代頃から始まっています。特にディープラーニングが活躍するようになってから、翻訳などでは特にLSTMが活躍しました。なぜならLSTMでは文脈を伝える機能が強まったからです。その上、エンコーダ・デコーダやアテンション（注意）機構などトランスフォーマーにも見られるような概念・仕組みがすでに使われていました。

しかし、トランスフォーマーはRNNやLSTMで中核となっていたリカレント（回帰、循環）な処理を必要としません。アテンションだけで文章から文脈を汲み取った判断ができるようになり、より正確な翻訳が可能となったのです。

でも、まだこの話をするのは早すぎます。まずは、RNNの基本的な仕組みを紹介します。そして、リカレントな仕組みの問題点を見ていきましょう。

ここから先は

5,650字 / 17画像

キカベン・読み放題

¥1,000 / 月

初月無料

人工知能、機械学習、ディープラーニング関連の用語説明、研究論文の概要、プログラミングの具体例などの読み応えのある新しい記事が月に４−５本ほど追加されます。また、気になるAIニュースや日常の雑観などは随時公開しています。

メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

このメンバーシップの詳細

ログイン

この記事が気に入ったらサポートをしてみませんか？