見出し画像

トランスフォーマーの自己アテンションの理解②回帰による文脈伝搬

本シリーズの記事リスト



この記事ではあまり数式を使わずに、トランスフォーマー以前の言語モデル、RNN(リカレント・ニューラルネットワーク、回帰型ニューラルネットワーク)を文脈の伝搬の仕組みとして捉え解説します。RNNがLSTM(Long short-term memory、長・短期記憶)へと進化し、文脈の保存と切り捨てをコントロールできるモデルの学習が可能となりました。さらに、アテンションやエンコーダ・デコーダの概念も登場し、トランスフォーマーの仕組みを理解する役者が出揃ってきます。

では、さっそく始めましょう。

トランスフォーマー以前

2017年に発表されたトランスフォーマーは、例えば、英語の文章をフランス語へ翻訳するといったタスクを行うのですが、当時は主流だったRNN(リカレント・ニューラルネットワーク、回帰型ニューラルネットワーク)を使わない新しい手法でした。ではRNNはいつ頃から研究されたのでしょうか。

RNNの歴史は結構古く1980年代頃から始まっています。特にディープラーニングが活躍するようになってから、翻訳などでは特にLSTMが活躍しました。なぜならLSTMでは文脈を伝える機能が強まったからです。その上、エンコーダ・デコーダアテンション(注意)機構などトランスフォーマーにも見られるような概念・仕組みがすでに使われていました。

しかし、トランスフォーマーはRNNやLSTMで中核となっていたリカレント(回帰、循環)な処理を必要としません。アテンションだけで文章から文脈を汲み取った判断ができるようになり、より正確な翻訳が可能となったのです。

でも、まだこの話をするのは早すぎます。まずは、RNNの基本的な仕組みを紹介します。そして、リカレントな仕組みの問題点を見ていきましょう。

ここから先は

5,650字 / 17画像

キカベン・読み放題

¥1,000 / 月
初月無料
このメンバーシップの詳細

この記事が気に入ったらサポートをしてみませんか?