HuggingFace Daily Papers(社区热门论文)
55
Muon 优于 Adam 的曲率视角解释
AI 摘要
研究从曲率角度解释 Muon 在 LLM 训练中效率约为 Adam 两倍的原因。二阶泰勒展开显示,两者一阶增益相当,但 Muon 的二阶曲率惩罚更小。曲率惩罚分解为更新范数与归一化方向锐度(NDS),两者更新范数相近,Muon 的 NDS 更低,且数据不平衡会放大这一优势。中后期训练中,Muon 的 NDS 优势主要源自更小的层内曲率。理论证明,Muon 通过平衡不同曲率组间的更新能量实现更小平均 NDS,在曲率异质性足够强时,同等步数下局部二次损失也更低。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org