HuggingFace Daily Papers（社区热门论文）

使用灯塔注意力进行长上下文预训练

2026-05-07 08:00·39天前

AI 摘要

为克服因果变换器在超长序列训练中因SDPA注意力二次复杂度导致的计算瓶颈，研究团队提出了一种仅用于训练、可移除的新型注意力机制——灯塔注意力。该方法通过亚二次复杂度的序列自适应压缩/解压缩预处理、能并行处理查询/键/值的对称压缩策略，以及“灯塔预训练+短期完整注意力恢复”的两阶段流程，在保持因果性的同时提升效率。初步小规模LLM预训练实验表明，该方法在相同设置下能实现更快的总训练时间，并在恢复阶段后获得更低的最终损失。

该来源未收录可展示正文，站内仅提供摘要。

数据/训练论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

使用灯塔注意力进行长上下文预训练

2026-05-07 08:00·39天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

数据/训练论文/研究