HuggingFace Daily Papers（社区热门论文）

UniPool：面向混合专家模型的全局共享专家池

2026-05-07 08:00·38天前

AI 摘要

传统MoE模型每层设置独立专家，导致参数量随深度线性增长。研究发现深层路由功能冗余，因此提出UniPool架构，采用一个全局共享的专家池供所有层访问，取代分层独立设计。通过池级辅助损失平衡专家使用，并采用NormRouter实现稳定稀疏路由。在多个规模的LLaMA模型上实验表明，UniPool持续提升了验证损失。关键的是，共享池设计将池大小确立为深度缩放超参数：仅使用基线41.6%-66.7%专家参数的缩减池变体，性能达到或超越了传统分层MoE，证明专家参数可实现次线性增长并保持更高效率。

该来源未收录可展示正文，站内仅提供摘要。

推理数据/训练论文/研究

阅读原文

HuggingFace Daily Papers（社区热门论文）

UniPool：面向混合专家模型的全局共享专家池

2026-05-07 08:00·38天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

推理数据/训练论文/研究