Gemma 4 的 MTP drafter 不是噱头,在 Apple Silicon 上实测能翻倍,且完全无损,本地跑开源模型的可以直接上,权重和框架都备好了。
Google为其开源模型Gemma 4推出MTP drafter(多token预测草稿模型),采用推测解码技术,能在保持输出质量不变的前提下,将推理速度最高提升3倍。该技术利用轻量级小模型预先推测多个token,再由大模型并行验证,从而显著提高吞吐效率,尤其有利于缓解本地部署时的内存带宽瓶颈。例如,在Apple Silicon上运行26B MoE模型时,批量处理可获得约2.2倍加速。模型沿用Apache 2.0协议,权重已开源,并获主流推理框架支持。
Google 为自家开源模型 Gemma 4 发布了 MTP drafter(多 token 预测草稿模型),推理速度最高提升 3 倍,输出质量保持不变。https://x.com/googledevs/status/2051700599184629994/video/1
Gemma 4 是 Google 几周前发布的开源模型系列,从手机端的 E2B、E4B 一直到工作站的 26B MoE 和 31B Dense,官方称上线几周下载量已经突破 6000 万。MTP drafter 用的是 speculative decoding(推测解码):让一个轻量级的小模型先"猜"出接下来好几个 token,再让大模型一次性并行验证,验证通过的部分一口气全部输出。
这套机制对本地跑模型的场景特别有用。LLM 推理之所以慢,瓶颈往往不在算力,而在内存带宽,处理器大部分时间都在把几十亿参数从显存搬到计算单元,只为了挤出下一个 token。推测解码把闲置算力利用起来,让小模型一次预测多个 token,大模型只做验证,等于把流水线拉满。
实际效果上,在 Apple Silicon 跑 26B MoE 模型,批量大小开到 4 到 8 时本地能拿到约 2.2 倍提速。因为最终验证仍由大模型完成,输出和原版逐字一致,没有质量取舍。
drafter 沿用 Gemma 4 的 Apache 2.0 协议,权重已经上传到 Hugging Face 和 Kaggle,transformers、MLX、vLLM、SGLang、Ollama 都已支持。