HuggingFace Daily Papers(社区热门论文)
64
DLA:面向多状态线性注意力的动态内存建模框架
AI 摘要
大语言模型长上下文扩展受限于标准注意力的二次复杂度。现有线性注意力多状态方法采用固定合并策略,无法适应token动态重要性,造成关键token丢失。DLA提出信息感知动态状态合并,根据token级信息变化自适应确定状态边界;并引入容量有界记忆建模,通过选择性合并相邻低信息状态维护固定大小缓存。DLA在两个线性注意力模型上预训练,在16个数据集上超越现有最优方法。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org