Attention Mechanism

2021年7月11日 16:00

・Attention Mechanism：seq2seq だけでは長い文章への対応が難しかった。なぜなら、長い文をRNNの最後の層まで伝達してその中間層結果であるcontext vectorは先頭の文の情報を失ってしまう。文章が長くなるほどそのシーケンスの内部表現の次元も大きくなっていく仕組みが必要になる。Attention Mechanismは「入力と出力のどの単語が関連しているのか」の関連度を学習する仕組み。

通常のseq2seq

seq2seq＋Attention

このようにseq2seqで使われないEncoderの出力部分を有効に活用し、長い文でも先頭から末端までの情報を利用した。

・確認テスト：RNNとword2vec、seq2seqとAttentionの違いを簡潔に述べよ。

・回答：RNNとword2vecは全く別もので、word2vecはどちらかというと通常の単層ニューラルネットワークに相当する。seq2seqとAttentionのも全く別ものでseq2seqはRNNをEncoder-Decoderに適用したもので、Attentionは入出力の要素ごとの関係性、注意箇所を学習する機構である。

考察

・attention機構は近年のディープランニングで話題になったアルゴリズムの一つで、ニューラルネットワークに注意箇所を学習させたり、あるいはニューラルネットワークの注意箇所を表示するなどにも使える。さらに、機械翻訳において入出力単語間の関連性を強めたことで翻訳性能が飛躍的に向上した。

この記事が気に入ったらサポートをしてみませんか？