HuggingFace Daily Papers（社区热门论文）

Muon 优于 Adam 的曲率视角解释

2026-06-03 08:00·12天前

AI 摘要

研究从曲率角度解释 Muon 在 LLM 训练中效率约为 Adam 两倍的原因。二阶泰勒展开显示，两者一阶增益相当，但 Muon 的二阶曲率惩罚更小。曲率惩罚分解为更新范数与归一化方向锐度（NDS），两者更新范数相近，Muon 的 NDS 更低，且数据不平衡会放大这一优势。中后期训练中，Muon 的 NDS 优势主要源自更小的层内曲率。理论证明，Muon 通过平衡不同曲率组间的更新能量实现更小平均 NDS，在曲率异质性足够强时，同等步数下局部二次损失也更低。

该来源未收录可展示正文，站内仅提供摘要。

数据/训练论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

Muon 优于 Adam 的曲率视角解释

2026-06-03 08:00·12天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

数据/训练论文/研究