公众号:腾讯混元
精选62
腾讯混元提出Stem稀疏注意力算法,被ICML 2026收录
精选理由
把稀疏注意力从一刀切升级成按信息流分配预算,算子在Hopper上把理论加速几乎无损转化,3.6倍首字延迟下降不是灌水——做长上下文应用的值得照着开源代码试。
AI 摘要
Stem算法通过Token位置衰减(TPD)和输出感知度量(OAM)两项创新,仅用25%算力即逼近稠密注意力精度。配套HPC算子针对Hopper架构优化,支持FP8量化与vLLM的Paged KV Cache,在混元Hy3 preview上实现首字延迟降低3.6倍。HPC-BSA相比MIT-BSA稳定保持约3倍加速,在8K至256K序列长度上表现一致。
公众号正文需在微信内阅读,站内仅提供摘要。
在微信中打开原文mp.weixin.qq.com