MISA是DeepSeek稀疏注意力中索引器模块的即插即用替代方案。它将索引器的多个查询头视为专家混合池,通过一个轻量级路由器,仅根据查询激活少数几个头部进行昂贵的令牌级评分,从而大幅降低计算成本。无需额外训练,仅激活8个头时,MISA在DeepSeek-V3.2和GLM-5上就能达到与原始密集索引器相当的LongBench性能,同时分别减少八分之七和四分之三的头部使用量。该方法在128K上下文内能保持完整的“大海捞针”热力图,每层可恢复超过92%的原始索引器所选令牌,其内核在单H200 GPU上实现了约3.82倍的加速。