小米发布 MiMo-V2.5 系列模型(含 MiMo-V2.5、MiMo-V2.5-Pro),采用 Hybrid Sliding Window Attention(Hybrid SWA)架构,KVCache 存储与计算量均降至 Full Attention 的约 1/7。以 MiMo-V2.5-Pro 为例,70 层中仅 10 层为 Full Attention,60 层为 SWA(窗口大小 128)。团队围绕 KVCache 系统重构(双池管理、按层异步拉取、SWA-aware 前缀缓存树)及分布式缓存 GCache 等环节优化,使存储效率提升约 7×,显著降低长上下文推理成本。