公众号：小米 MiMo

MiMo-V2.5 系列推理全链路优化：将 Hybrid SWA 效率推向极致

2026-05-30 18:39·17天前·Xiaomi MiMo

AI 摘要

小米发布 MiMo-V2.5 系列模型（含 MiMo-V2.5、MiMo-V2.5-Pro），采用 Hybrid Sliding Window Attention（Hybrid SWA）架构，KVCache 存储与计算量均降至 Full Attention 的约 1/7。以 MiMo-V2.5-Pro 为例，70 层中仅 10 层为 Full Attention，60 层为 SWA（窗口大小 128）。团队围绕 KVCache 系统重构（双池管理、按层异步拉取、SWA-aware 前缀缓存树）及分布式缓存 GCache 等环节优化，使存储效率提升约 7×，显著降低长上下文推理成本。

公众号正文需在微信内阅读，站内仅提供摘要。

推理教程/实践部署/工程

在微信中打开原文

公众号：小米 MiMo

MiMo-V2.5 系列推理全链路优化：将 Hybrid SWA 效率推向极致

2026-05-30 18:39·17天前·Xiaomi MiMo

AI 摘要

公众号正文需在微信内阅读，站内仅提供摘要。

在微信中打开原文mp.weixin.qq.com

推理教程/实践部署/工程