【論文紹介】アテンション・シンクを用いた効率的なストリーミング言語モデル
興味深い論文を見つけたので、ざっとまとめました。
私の理解不足は多々ありますので、興味を持たれた方はぜひ原文をご参照ください。
Guangxuan Xiao, Yuandong Tian, Beidi Chen, Song Han, Mike Lewis
概要この研究では、大規模な言語モデルを実行するための新しいフレームワークであるStreamingLLMを提案しています。これは、従来のアプローチであるWindow attentionがテキストの長さがキャッシュサイズを超