HuggingFace Daily Papers(社区热门论文)
精选75
混合LLM中的注意力失忆:CoT微调破坏长距离召回及修复方法
精选理由
做长上下文推理的同学注意了,CoT微调居然会弄坏模型的长距离记忆,这篇论文不仅把原因扒清楚了,还给出了零成本修复方案,值得放进参考列表。
AI 摘要
CoT监督微调系统性地降低混合线性注意力模型(如HypeNet、Jet-Nemotron)的长上下文召回能力。在NIAH任务上,HypeNet-9B的S2@256K从67.2%降至9.4%,原因是CoT-SFT使注意力梯度偏向短程模式,破坏长程路由的W_Q和W_K投影。QK-Restore方法无需训练,从微调前检查点恢复W_Q和W_K,保留其余参数;Procrustes变体平衡路由保留与推理适应。在HypeNet-5B上,QK-Restore将S3@256K从65.4%提升至76.4%,推理性能不变。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org