HuggingFace Daily Papers（社区热门论文）

DLA：面向多状态线性注意力的动态内存建模框架

2026-06-09 08:00·6天前

AI 摘要

大语言模型长上下文扩展受限于标准注意力的二次复杂度。现有线性注意力多状态方法采用固定合并策略，无法适应token动态重要性，造成关键token丢失。DLA提出信息感知动态状态合并，根据token级信息变化自适应确定状态边界；并引入容量有界记忆建模，通过选择性合并相邻低信息状态维护固定大小缓存。DLA在两个线性注意力模型上预训练，在16个数据集上超越现有最优方法。

该来源未收录可展示正文，站内仅提供摘要。

推理数据/训练论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

DLA：面向多状态线性注意力的动态内存建模框架

2026-06-09 08:00·6天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

推理数据/训练论文/研究