HuggingFace Daily Papers(社区热门论文)
61
单层解万象:理解大语言模型中的大规模激活现象
AI 摘要
研究揭示了大语言模型中大规模激活现象的起源,识别出一个普遍存在于不同模型家族中的“大规模涌现层”。该层中,RMSNorm与前馈网络参数共同触发了大规模激活,随后通过残差连接传播至更深层。这导致相关令牌表征在后续层中趋于僵化,降低了传递给注意力模块的隐藏表征多样性。为此,研究者提出一种简单有效的方法来降低此类表征的刚性。该方法在无需训练和微调两种设置下,均能持续提升模型在指令遵循与数学推理等任务上的性能,并通过选择性削弱注意力汇聚点的影响,从隐藏状态层面阐明了问题根源,为基于原理的缓解策略提供了新思路。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org