HuggingFace Daily Papers(社区热门论文)
49
专家联盟:面向大语言模型的高通信效率分布式推理架构
AI 摘要
针对混合专家模型分布式推理中专家间通信开销巨大的问题,本研究提出“专家联盟”架构。该架构将Transformer层的MoE模块重组为多个MoE集群,每个集群仅负责一个键值头并在内部应用专家并行。集群间通过对注意力后残差求和来同步信息,驱动下一MoE块的路由。在单节点设置中,该方案完全消除了GPU间的全对全通信;在多节点设置中,则将此类通信限制在节点内部,大幅降低开销。在LongBench上的实现表明,该架构显著提升了单节点与多节点环境下的推理吞吐量与延迟,端到端前向传播延迟最高降低5.2倍,同时保持了与同规模MoE模型相当的生成质量。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org