HuggingFace Daily Papers(社区热门论文)
44
使用灯塔注意力进行长上下文预训练
AI 摘要
为克服因果变换器在超长序列训练中因SDPA注意力二次复杂度导致的计算瓶颈,研究团队提出了一种仅用于训练、可移除的新型注意力机制——灯塔注意力。该方法通过亚二次复杂度的序列自适应压缩/解压缩预处理、能并行处理查询/键/值的对称压缩策略,以及“灯塔预训练+短期完整注意力恢复”的两阶段流程,在保持因果性的同时提升效率。初步小规模LLM预训练实验表明,该方法在相同设置下能实现更快的总训练时间,并在恢复阶段后获得更低的最终损失。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org