Google发布Gemma 4草稿专用模型，推理速度提升三倍

karminski-牙医@karminski3

2026-05-06 09:13·40天前

AI 摘要

Google发布了Gemma 4系列模型的专用草稿模型，用于推测性解码优化。31B Dense模型搭配草稿模型速度提升3倍，仅增加1G显存开销；Gemma4-26B和Gemma4-E4B分别提升1.5倍和3.1倍速度。新草稿模型如gemma-4-31B-it-assistant体积仅939 MB，专门优化后接受率高，相比之前使用非专用草稿模型（如gemma-4-E2B-it-UD-Q4_K_XL）提速更明显。作者呼吁Qwen尽快推出类似优化模型（如Qwen3.6-27B-assistant），以应对高性能需求。

Google 刚刚发布了 Gemma 4系列模型的草稿专用模型！ 31B Dense 搭配草稿模型速度竟然能提升3倍！付出的代价仅仅是多花 1G 显存！

另外 Gemma4-26B 也能提升1.5x 速度， Gemma4-E4B 更是能提升3.1x 速度. 我之前给大家做过 Gemma 4 推测性解码的教程，当时官方还没有专用草稿模型，所以我给大家演示的是 gemma-4-31B-it-UD-Q4_K_XL 作为主模型，然后使用 gemma-4-E2B-it-UD-Q4_K_XL 作为草稿模型，速度可以提升 1.23x，草稿接受率在62% 左右.

这次直接翻三倍原因很简单，因为之前用的 gemma-4-E2B-it-UD-Q4_K_XL 即使已经是量化模型了，大小也有3GB左右，而这次的 gemma-4-31B-it-assistant 即使是原始精度也只有 939 MB！而且是专门为了推测性解码优化的！接受率也会高. 所以提速自然就明显了.

而代价也仅仅是显存中再多加载这个模型就可以了（大概1GB显存开销）.

现在压力来到了 Qwen 这边，建议 Qwen 赶紧推出 Qwen3.6-27B-assistant，再不推出我的显卡可是要红温了，我天天cue你们嗷！

#gemma4 #qwen #gemma4assistant #推测性解码 #投机解码

Google推理模型发布

在 X 查看原推

karminski-牙医@karminski3 · X