Gemma 4借助MTP草稿机实现3倍速推理

Berryxia.AI@berryxia

2026-05-06 07:21·40天前

AI 摘要

Google通过为Gemma 4引入MTP drafters（多token预测草稿机），在不增加参数、不改变架构和模型质量的前提下，实现了最高3倍的推理速度提升。该技术让模型能一次预测多个token，突破了传统自回归解码的串行瓶颈，极大提升了GPU利用率。这显著增强了本地部署的实时性，并使Agent、代码生成等场景受益，进一步放大了开源模型在性价比和本地运行方面的优势。

Gemma 4 现在最高能跑到 3倍速度，而且质量完全不变。

他们没有增加参数、没有换新架构，只是推出了一套 MTP drafters（多 token 预测草稿机），让模型一次预测多个 token，彻底绕过了传统 autoregressive 一个词接一个词的串行瓶颈。

GPU 不再傻等，它开始"预判"了。

这意味着：本地部署实时性大幅提升 Agent、代码生成、实时翻译这些场景直接起飞开源模型在性价比上的优势又被拉大一截

Google 这次玩的不是参数战，只是把硬件利用率直接压榨到极致。

当闭源模型还在拼"谁更聪明"的时候，开源已经在拼"谁更快、更便宜、还能本地跑"了。

博客在这里👉 https：//blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/

Google for DevelopersGemma 4: Now up to 3x Faster. ⚡ Same quality, way more speed. Our new MTP drafters allow Gemma 4 to predict multiple tokens at once, effectively tripling your o...

Google开源生态推理模型发布

在 X 查看原推

Berryxia.AI@berryxia · X