Google发布了Gemma 4系列模型的专用草稿模型,用于推测性解码优化。31B Dense模型搭配草稿模型速度提升3倍,仅增加1G显存开销;Gemma4-26B和Gemma4-E4B分别提升1.5倍和3.1倍速度。新草稿模型如gemma-4-31B-it-assistant体积仅939 MB,专门优化后接受率高,相比之前使用非专用草稿模型(如gemma-4-E2B-it-UD-Q4_K_XL)提速更明显。作者呼吁Qwen尽快推出类似优化模型(如Qwen3.6-27B-assistant),以应对高性能需求。
Google 刚刚发布了 Gemma 4系列模型的草稿专用模型! 31B Dense 搭配草稿模型速度竟然能提升3倍! 付出的代价仅仅是多花 1G 显存!
另外 Gemma4-26B 也能提升1.5x 速度, Gemma4-E4B 更是能提升3.1x 速度. 我之前给大家做过 Gemma 4 推测性解码的教程, 当时官方还没有专用草稿模型, 所以我给大家演示的是 gemma-4-31B-it-UD-Q4_K_XL 作为主模型, 然后使用 gemma-4-E2B-it-UD-Q4_K_XL 作为草稿模型, 速度可以提升 1.23x, 草稿接受率在62% 左右.
这次直接翻三倍原因很简单, 因为之前用的 gemma-4-E2B-it-UD-Q4_K_XL 即使已经是量化模型了, 大小也有3GB左右, 而这次的 gemma-4-31B-it-assistant 即使是原始精度也只有 939 MB! 而且是专门为了推测性解码优化的! 接受率也会高. 所以提速自然就明显了.
而代价也仅仅是显存中再多加载这个模型就可以了(大概1GB显存开销).
现在压力来到了 Qwen 这边, 建议 Qwen 赶紧推出 Qwen3.6-27B-assistant, 再不推出我的显卡可是要红温了, 我天天cue你们嗷!
#gemma4 #qwen #gemma4assistant #推测性解码 #投机解码