Google Gemma 4凭MTP实现3倍加速，vLLM零延迟提供支持

Berryxia.AI@berryxia

精选75

2026-05-06 07:34·40天前

精选理由

Google的MTP技术让Gemma 4提速3倍，vLLM当天就支持了，做本地Agent和实时应用的开发者现在一条Docker命令就能跑，开源模型性价比优势又拉大一截。

AI 摘要

Google发布Gemma 4模型，采用创新的MTP drafters技术，实现最高3倍解码速度提升且质量无损。该技术让模型一次预测多个token，突破传统自回归生成的串行瓶颈，极大提升GPU利用率。vLLM项目在官方宣布后立即提供Day-0支持，用户可通过一条Docker命令快速部署。这一进步显著增强本地部署的实时性，使Agent、代码生成等场景受益，进一步放大开源模型在性价比和本地化运行方面的优势。

Google昨天刚官宣Gemma 4用MTP实现3倍加速， vLLM今天就直接Day-0支持，零延迟把这个加速塞到了所有人手里。

一条Docker命令就能跑：

🚀 现成镜像 + 完整recipes ⚡️ 最高3倍解码速度 ✅ 质量零损失

vLLM recipes在这里👉 https：//recipes.vllm.ai/Google/gemma-4-26B-A4B-it

Berryxia.AIGemma 4 现在最高能跑到 3倍速度,而且质量完全不变。他们没有增加参数、没有换新架构,只是推出了一套 MTP drafters(多 token 预测草稿机),让模型一次预测多个 token,彻底绕过了传统 autoregressive 一个词接一个词的串行瓶颈。 GPU 不再傻等,它开始"预判"了。这意味着:...

Google推理教程/实践

在 X 查看原推

Berryxia.AI@berryxia · X