专家联盟：面向大语言模型的高通信效率分布式推理架构

2026-05-07 08:00·39天前

AI 摘要

针对混合专家模型分布式推理中专家间通信开销巨大的问题，本研究提出“专家联盟”架构。该架构将Transformer层的MoE模块重组为多个MoE集群，每个集群仅负责一个键值头并在内部应用专家并行。集群间通过对注意力后残差求和来同步信息，驱动下一MoE块的路由。在单节点设置中，该方案完全消除了GPU间的全对全通信；在多节点设置中，则将此类通信限制在节点内部，大幅降低开销。在LongBench上的实现表明，该架构显著提升了单节点与多节点环境下的推理吞吐量与延迟，端到端前向传播延迟最高降低5.2倍，同时保持了与同规模MoE模型相当的生成质量。

该来源未收录可展示正文，站内仅提供摘要。

推理论文/研究部署/工程

HuggingFace Daily Papers（社区热门论文）

专家联盟：面向大语言模型的高通信效率分布式推理架构

2026-05-07 08:00·39天前

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文arxiv.org

推理论文/研究部署/工程