Transformer FAM: フィードバックアテンションによる作業記憶モデルの導入

2024年5月11日 23:58

概要

現代のディープニューラルネットワーク（DNN）は、特に大脳新皮質のニューロン間シナプス結合の強度を模倣するWeightを通じて学習します。Transformerモデルもこの枠組みを使用していますが、長期記憶の形成に注力するあまり、人間の脳に備わる作業記憶（Working Memory）のダイナミクスを模倣できていないという問題があります。本稿では、Transformerモデルにフィードバックアテンション機構（Transformer FAM）を導入し、人間の作業記憶に似たプロセスを再現することを目指します。

1. 導入

人間の脳は、作業記憶を用いて情報を一時的に保持し、必要に応じて再活用します。このメカニズムは、大脳新皮質のシナプス結合強度とは異なり、短期間で情報を「忘れては覚え」を繰り返します。この特性は、DNN、特にTransformerには欠けており、長いシーケンスに対する効率的な処理が制限されています。

2. Transformerの限界と作業記憶の必要性

現行のTransformerモデルは、長いシーケンスに対してスケーリングが困難（n^2問題）であり、短期的な情報保持能力にも制約があります。これは、トークン間の依存関係を適切に管理できないため、情報の整合性が低下する原因となっています。

3. Transformer FAMの概念と設計

Transformer FAMは、フィードバックアテンションメカニズムを導入し、各処理ステップで前回のアテンションステートからのフィードバックを組み込むことにより、作業記憶を模倣します。これにより、モデルは過去の情報を「想起」し、新しい情報と統合することが可能になります。

4. 実験と評価

提案モデルを複数のNLPタスクに適用し、標準的なTransformerと比較します。特に、長い文書の要約や、複数の文脈が交差する会話の理解など、作業記憶が重要となるタスクでの性能向上を評価します。

5. 結論

Transformer FAMは、人間の脳の作業記憶にインスパイアされた新しいアプローチをTransformerに導入することにより、長期および短期の情報処理の両方を強化します。このモデルは、AIがより人間らしい情報処理を行うための重要なステップと考えられます。

この記事が気に入ったらサポートをしてみませんか？