小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式，1T 模型输出突破 1000 tokens/s

2026-06-09 11:31·6天前·Xiaomi MiMo

精选理由

万亿模型首次在通用GPU上突破1000 tokens/s，不是专用硬件的胜利而是模型与系统Codesign的胜利，做实时AI应用的都应该盯紧这一套方案。

AI 摘要

小米 MiMo 与 TileRT 联合发布 MiMo-V2.5-Pro-UltraSpeed 模式，使 1T 参数旗舰模型输出速度首次突破 1000 tokens/s。模型侧采用 FP4 混合量化（仅量化 MoE Expert）与 DFlash 块级 masked 并行推测解码（coding 场景平均接受长度 6.30 tokens）；系统侧 TileRT 引入常驻内核引擎与异构流水线协作。API 限时开放（2026 年 6 月 9 日至 23 日），定价为 MiMo-V2.5-Pro 的 3 倍，速度提升约 10 倍。FP4 权重与 DFlash 模型 checkpoint 已开源至 HuggingFace。

公众号正文需在微信内阅读，站内仅提供摘要。

开源生态推理模型发布部署/工程

公众号：小米 MiMo

精选80

小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式，1T 模型输出突破 1000 tokens/s

2026-06-09 11:31·6天前·Xiaomi MiMo

精选理由

万亿模型首次在通用GPU上突破1000 tokens/s，不是专用硬件的胜利而是模型与系统Codesign的胜利，做实时AI应用的都应该盯紧这一套方案。

AI 摘要

公众号正文需在微信内阅读，站内仅提供摘要。

在微信中打开原文mp.weixin.qq.com

开源生态推理模型发布部署/工程