Google为Gemma 4发布MTP草稿模型，推理速度最高提升3倍

宝玉@dotey

精选75

2026-05-06 01:35·40天前

精选理由

Gemma 4 的 MTP drafter 不是噱头，在 Apple Silicon 上实测能翻倍，且完全无损，本地跑开源模型的可以直接上，权重和框架都备好了。

AI 摘要

Google为其开源模型Gemma 4推出MTP drafter（多token预测草稿模型），采用推测解码技术，能在保持输出质量不变的前提下，将推理速度最高提升3倍。该技术利用轻量级小模型预先推测多个token，再由大模型并行验证，从而显著提高吞吐效率，尤其有利于缓解本地部署时的内存带宽瓶颈。例如，在Apple Silicon上运行26B MoE模型时，批量处理可获得约2.2倍加速。模型沿用Apache 2.0协议，权重已开源，并获主流推理框架支持。

Google 为自家开源模型 Gemma 4 发布了 MTP drafter（多 token 预测草稿模型），推理速度最高提升 3 倍，输出质量保持不变。https：//x.com/googledevs/status/2051700599184629994/video/1

Gemma 4 是 Google 几周前发布的开源模型系列，从手机端的 E2B、E4B 一直到工作站的 26B MoE 和 31B Dense，官方称上线几周下载量已经突破 6000 万。MTP drafter 用的是 speculative decoding（推测解码）：让一个轻量级的小模型先"猜"出接下来好几个 token，再让大模型一次性并行验证，验证通过的部分一口气全部输出。

这套机制对本地跑模型的场景特别有用。LLM 推理之所以慢，瓶颈往往不在算力，而在内存带宽，处理器大部分时间都在把几十亿参数从显存搬到计算单元，只为了挤出下一个 token。推测解码把闲置算力利用起来，让小模型一次预测多个 token，大模型只做验证，等于把流水线拉满。

实际效果上，在 Apple Silicon 跑 26B MoE 模型，批量大小开到 4 到 8 时本地能拿到约 2.2 倍提速。因为最终验证仍由大模型完成，输出和原版逐字一致，没有质量取舍。

drafter 沿用 Gemma 4 的 Apache 2.0 协议，权重已经上传到 Hugging Face 和 Kaggle，transformers、MLX、vLLM、SGLang、Ollama 都已支持。

Google for DevelopersGemma 4: Now up to 3x Faster. ⚡ Same quality, way more speed. Our new MTP drafters allow Gemma 4 to predict multiple tokens at once, effectively tripling your o...

Google开源生态推理模型发布

在 X 查看原推

宝玉@dotey · X