Google通过为Gemma 4引入MTP drafters(多token预测草稿机),在不增加参数、不改变架构和模型质量的前提下,实现了最高3倍的推理速度提升。该技术让模型能一次预测多个token,突破了传统自回归解码的串行瓶颈,极大提升了GPU利用率。这显著增强了本地部署的实时性,并使Agent、代码生成等场景受益,进一步放大了开源模型在性价比和本地运行方面的优势。
Gemma 4 现在最高能跑到 3倍速度,而且质量完全不变。
他们没有增加参数、没有换新架构,只是推出了一套 MTP drafters(多 token 预测草稿机),让模型一次预测多个 token,彻底绕过了传统 autoregressive 一个词接一个词的串行瓶颈。
GPU 不再傻等,它开始"预判"了。
这意味着: 本地部署实时性大幅提升 Agent、代码生成、实时翻译这些场景直接起飞 开源模型在性价比上的优势又被拉大一截
Google 这次玩的不是参数战,只是把硬件利用率直接压榨到极致。
当闭源模型还在拼"谁更聪明"的时候, 开源已经在拼"谁更快、更便宜、还能本地跑"了。
博客在这里👉 https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/