Google的MTP技术让Gemma 4提速3倍,vLLM当天就支持了,做本地Agent和实时应用的开发者现在一条Docker命令就能跑,开源模型性价比优势又拉大一截。
Google发布Gemma 4模型,采用创新的MTP drafters技术,实现最高3倍解码速度提升且质量无损。该技术让模型一次预测多个token,突破传统自回归生成的串行瓶颈,极大提升GPU利用率。vLLM项目在官方宣布后立即提供Day-0支持,用户可通过一条Docker命令快速部署。这一进步显著增强本地部署的实时性,使Agent、代码生成等场景受益,进一步放大开源模型在性价比和本地化运行方面的优势。
Google昨天刚官宣Gemma 4用MTP实现3倍加速, vLLM今天就直接Day-0支持,零延迟把这个加速塞到了所有人手里。
一条Docker命令就能跑:
🚀 现成镜像 + 完整recipes ⚡️ 最高3倍解码速度 ✅ 质量零损失
vLLM recipes在这里👉 https://recipes.vllm.ai/Google/gemma-4-26B-A4B-it