HuggingFace Daily Papers（社区热门论文）

SparDA：面向长上下文LLM推理的高效稀疏解耦注意力架构

2026-06-03 08:00·12天前

AI 摘要

SparDA提出解耦稀疏注意力架构，在QKV外引入第四层投影Forecast，预测下一层所需KV块，使CPU到GPU预取与当前层执行重叠。GQA实现中每组使用一个Forecast头。仅增加<0.5%参数，训练仅更新Forecast投影。在8B稀疏预训练模型上匹配或略提升精度，实现prefill加速1.25倍、decode加速1.7倍；相比非offload稀疏基线，单GPU上decode吞吐量提升5.3倍。代码已开源。

该来源未收录可展示正文，站内仅提供摘要。

推理论文/研究部署/工程

阅读原文

HuggingFace Daily Papers（社区热门论文）

SparDA：面向长上下文LLM推理的高效稀疏解耦注意力架构

2026-06-03 08:00·12天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

推理论文/研究部署/工程