HuggingFace Daily Papers(社区热门论文)
58
SlimQwen:探索大型混合专家模型预训练中的剪枝与蒸馏
AI 摘要
本研究系统探索了在大规模预训练中对混合专家模型进行压缩的方法。关键发现包括:对预训练MoE模型进行结构化剪枝,在相同训练预算下始终优于从头训练目标架构;不同的一次性专家压缩方法经过大规模持续预训练后性能趋同,为此提出一种简单的部分保留专家合并策略以提升下游任务表现。结合知识蒸馏与语言建模损失优于单独使用蒸馏,特别是在知识密集型任务上,进一步提出的多令牌预测蒸馏方法能带来稳定增益。在训练令牌数相同的情况下,渐进式剪枝方案优于一次性压缩。综合这些方法,成功将Qwen3-Next-80A3B模型压缩至23A2B,同时保持了有竞争力的性能。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org