混合LLM中的注意力失忆：CoT微调破坏长距离召回及修复方法

2026-06-09 08:00·6天前

精选理由

做长上下文推理的同学注意了，CoT微调居然会弄坏模型的长距离记忆，这篇论文不仅把原因扒清楚了，还给出了零成本修复方案，值得放进参考列表。

AI 摘要

CoT监督微调系统性地降低混合线性注意力模型（如HypeNet、Jet-Nemotron）的长上下文召回能力。在NIAH任务上，HypeNet-9B的S2@256K从67.2%降至9.4%，原因是CoT-SFT使注意力梯度偏向短程模式，破坏长程路由的W_Q和W_K投影。QK-Restore方法无需训练，从微调前检查点恢复W_Q和W_K，保留其余参数；Procrustes变体平衡路由保留与推理适应。在HypeNet-5B上，QK-Restore将S3@256K从65.4%提升至76.4%，推理性能不变。

该来源未收录可展示正文，站内仅提供摘要。

推理论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

精选75

混合LLM中的注意力失忆：CoT微调破坏长距离召回及修复方法

2026-06-09 08:00·6天前

精选理由

做长上下文推理的同学注意了，CoT微调居然会弄坏模型的长距离记忆，这篇论文不仅把原因扒清楚了，还给出了零成本修复方案，值得放进参考列表。

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

推理论文/研究