Attention Is All You Need
Transformerネットワークアーキテクチャは、再帰と畳み込みを完全に排除し、注意機構だけに基づいており、より並列化が可能であり、訓練時間が大幅に短縮されながら、高品質な結果を達成することができることが示された.
優れている点
先行研究と比べて,Transformerはより並列化が可能であり,訓練時間が大幅に短縮されながら高品質な結果を達成することができる.
技術のポイント
提案技術の肝は注意機構を完全に利用して入出力の表現を計算することである。
検証
有効性はWMT 2014英語-ドイツ語および英語-フランス語の2つの機械翻訳タスクで実験的に示された.
議論
Transformerの欠点や限界についても言及されている.例えば,長いシーケンスに対しては効率的ではなく,RNNとCNNを使用するモデルよりもメモリ使用量が多いことが指摘されている.また,Transformerは自己注意機構に基づくため,入力シーケンスの順序を考慮しないため,タスクによっては適切な表現を得られない可能性に言及している.
この記事が気に入ったらサポートをしてみませんか?