Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

Ikemen Mas Kot

2024年4月12日 11:03

下記の文章は論文のアブストラクトをChatGPTに解釈させたものであり、正確性は保証しません。

本研究は、Transformerベースの大規模言語モデル（LLM）を無限に長い入力にスケールする効率的な方法を紹介しています。先行研究と比較すると、このアプローチは、新しいアテンション技術であるInfini-attentionを取り入れています。Infini-attentionは、圧縮メモリをバニラアテンションメカニズムに組み込み、マスクされたローカルアテンションと長期線形アテンションメカニズムを単一のTransformerブロックに組み込んでいます。
本研究の目的は、TransformerベースのLLMを有界なメモリフットプリントと演算で無限に長い入力を効果的に処理することです。具体的には、Infini-attentionという新しいアテンション技術を導入し、圧縮メモリを使って既存のLLMを無限に長いコンテキストに適用できるようにすることを目指しています。
本研究で使用されるデータについては特に言及されていません。
本研究で使用される手法は、Infini-attentionという新しいアテンション技術です。Infini-attentionは、バニラアテンションメカニズムに圧縮メモリを組み込み、単一のTransformerブロック内でマスクされたローカルアテンションと長期線形アテンションメカニズムを構築します。具体的には、圧縮メモリに以前の入力セグメントの注意のキーと値の状態を保存し、次のシーケンスの処理時にアテンションクエリの状態を使用してメモリから値を取得します。最終的なコンテキストの出力のために、Infini-attentionは長期記憶からの値とローカルアテンションコンテキストを集約します。
本研究によって明らかになったことは、Infini-attentionを使用することで、LLMのモデルサイズに対して114倍のメモリ効率を実現しながら、長いコンテキストの言語モデリングベンチマークでベースラインモデルを上回るパフォーマンスを達成できるということです。また、Infini-attentionを使用したトレーニングでは、より長いシーケンス長（100Kトークン）でモデルのパープレキシティがさらに向上しました。具体的には、1BのLLMを1Mのシーケンス長にスケーリングし、Infini-attentionを適用することでパスキーリトリーバルタスクを解決できることを示しました。さらに、Infini-attentionを継続的な事前トレーニングとタスクのファインチューニングに適用することで、8Bのモデルは500Kの長さの要約タスクで新たな最先端の結果を達成することを示しました。

この記事が気に入ったらサポートをしてみませんか？