单层解万象：理解大语言模型中的大规模激活现象

2026-05-08 08:00·37天前

AI 摘要

研究揭示了大语言模型中大规模激活现象的起源，识别出一个普遍存在于不同模型家族中的“大规模涌现层”。该层中，RMSNorm与前馈网络参数共同触发了大规模激活，随后通过残差连接传播至更深层。这导致相关令牌表征在后续层中趋于僵化，降低了传递给注意力模块的隐藏表征多样性。为此，研究者提出一种简单有效的方法来降低此类表征的刚性。该方法在无需训练和微调两种设置下，均能持续提升模型在指令遵循与数学推理等任务上的性能，并通过选择性削弱注意力汇聚点的影响，从隐藏状态层面阐明了问题根源，为基于原理的缓解策略提供了新思路。

该来源未收录可展示正文，站内仅提供摘要。

数据/训练论文/研究

HuggingFace Daily Papers（社区热门论文）

单层解万象：理解大语言模型中的大规模激活现象

2026-05-08 08:00·37天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

数据/训练论文/研究