トランスフォーマーの自己アテンションの理解②再帰による文脈伝搬
本シリーズの記事リスト
第一弾 トークン数値化の歴史
第二弾 再帰による文脈伝搬
第三弾 レコメンダーと内積
第四弾 位置エンコーディング
第五弾 エンコーダ・デコーダ
第六弾 クエリとキーとバリュー
第七弾 エンコーダ・ブロックの詳細
第八弾 デコーダ・ブロックの詳細
この記事ではあまり数式を使わずに、トランスフォーマー以前の言語モデル、RNN(リカレント・ニューラルネットワーク、再帰型ニューラルネットワーク)を文脈の伝搬の仕組みとして捉え解説します。RNNがLSTM(Long short-term memory、長・短期記憶)へと進化し、文脈の保存と切り捨てをコントロールできるモデルの学習が可能となりました。さらに、アテンションやエンコーダ・デコーダの概念も登場し、トランスフォーマーの仕組みを理解する役者が出揃ってきます。
では、さっそく始めましょう。
トランスフォーマー以前
2017年に発表されたトランスフォーマーは、例えば、英語の文章をフランス語へ翻訳するといったタスクを行うのですが、当時は主流だったRNN(リカレント・ニューラルネットワーク、再帰型ニューラルネットワーク)を使わない新しい手法でした。ではRNNはいつ頃から研究されたのでしょうか。
RNNの歴史は結構古く1980年代頃から始まっています。特にディープラーニングが活躍するようになってから、翻訳などでは特にLSTMが活躍しました。なぜならLSTMでは文脈を伝える機能が強まったからです。その上、エンコーダ・デコーダやアテンション(注意)機構などトランスフォーマーにも見られるような概念・仕組みがすでに使われていました。
しかし、トランスフォーマーはRNNやLSTMで中核となっていたリカレント(再帰型)の処理を必要としません。アテンションだけで文章から文脈を汲み取った判断ができるようになり、より正確な翻訳が可能となったのです。
でも、まだこの話をするのは早すぎます。まずは、RNNの基本的な仕組みを紹介します。そして、リカレントな仕組みの問題点を見ていきましょう。
この記事が気に入ったらサポートをしてみませんか?