HuggingFace Daily Papers(社区热门论文)
65
针对Mixture-of-Experts模型的置信度自适应SwiGLU
AI 摘要
本研究提出了置信度自适应SwiGLU,这是面向Mixture-of-Experts模型的一种SwiGLU变体。该方法根据token级的路由置信度动态调整专家门控的锐度,通过将SiLU门控的锐度系数参数化为路由器对数几率的可学习函数,使每个门控单元能在平滑的广泛激活与尖锐的选择性门控之间自适应插值。在FineWeb-Edu数据集上针对不同规模的MoE Transformer模型评估表明,κ-SwiGLU在引入极少量额外参数和微小计算开销的前提下,提升了模型的平均CORE性能。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org