HuggingFace Daily Papers(社区热门论文)
48
SparDA:面向长上下文LLM推理的高效稀疏解耦注意力架构
AI 摘要
SparDA提出解耦稀疏注意力架构,在QKV外引入第四层投影Forecast,预测下一层所需KV块,使CPU到GPU预取与当前层执行重叠。GQA实现中每组使用一个Forecast头。仅增加<0.5%参数,训练仅更新Forecast投影。在8B稀疏预训练模型上匹配或略提升精度,实现prefill加速1.25倍、decode加速1.7倍;相比非offload稀疏基线,单GPU上decode吞吐量提升5.3倍。代码已开源。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org