DiffusionGemma:文本生成速度提升4倍的开源扩散模型
DiffusionGemma 虽为实验性质,但它把文本生成从“串行打字机”变成了“并行印刷机”,本地推理速度 4 倍提升,对需要实时交互的开发者是个值得关注的方向。
Google DeepMind 发布开源实验模型 DiffusionGemma,采用文本扩散技术,突破自回归逐 token 生成方式,每次前向并行生成 256 个 token。该 26B MoE 模型推理时仅激活 3.8B 参数,量化后适配 18GB 显存消费级 GPU。在 H100 上达 1000+ tokens/s,RTX 5090 上 700+ tokens/s,速度提升 4 倍。具备双向注意力和自我修正能力,面向内联编辑、代码填充等本地交互工作流,以 Apache 2.0 许可证开放。
我们最新的开放实验模型在专用 GPU 上可实现高达 4 倍的推理速度提升,并为探索对速度敏感、交互式的本地工作流打开了大门。
B
Brendan O'Donoghue
研究科学家
S
Sebastian Flennerhag
研究科学家
分享
x.comFacebookLinkedInMail
复制链接
今天,我们推出 DiffusionGemma,一款探索文本扩散这一极快文本生成方法的实验性开放模型。该模型采用 Apache 2.0 许可证发布,是一个 26B 参数的混合专家(MoE)模型,它突破了典型自回归大语言模型(LLM)逐 token 顺序处理的模式,而是同时生成整段文本,在 GPU 上实现高达 4 倍的文本生成速度。
DiffusionGemma 基于我们 Gemma 4 系列业界领先的每参数智能水平以及前沿的 Gemini 扩散研究构建,集成了一个旨在最大化生成速度的新型扩散头。虽然自回归的 Gemma 4 模型仍是高质量生产输出的标准,但 DiffusionGemma 专为探索对速度敏感、交互式本地工作流(如行内编辑、快速迭代和生成非线性文本结构)的研究人员和开发者而设计。
为开发者解锁新价值
构建实时交互式 AI 应用的开发者常常面临本地推理延迟瓶颈的困扰。DiffusionGemma 直接应对这些挑战,但伴随一些关键权衡:
Blazing fast inference: By shifting the decode bottleneck from memory-bandwidth to compute, DiffusionGemma generates up to 4x faster token output on dedicated GPUs. (1000+ tokens per second on a single NVIDIA H100, 700+ tokens per second on NVIDIA GeForce RTX 5090). 1
闪电般快速的推理:通过将解码瓶颈从内存带宽转移到计算能力,DiffusionGemma 在专用 GPU 上的模型 token 输出速度最高提升 4 倍。(单张 NVIDIA H100 上每秒生成 1000+ 模型 token,NVIDIA GeForce RTX 5090 上每秒生成 700+ 模型 token)。
Accessible hardware footprint: Operating as a 26B total Mixture of Experts (MoE) model that activates only 3.8B parameters during inference, DiffusionGemma fits comfortably within 18GB VRAM limits of high-end dedicated consumer GPUs when quantized.
可及的硬件占用:作为一个总参数量为 26B 的混合专家(MoE)模型,推理时仅激活 3.8B 参数,量化后的 DiffusionGemma 可以轻松适配高端专用消费级 GPU 18GB VRAM 的限制。
Bi-directional attention: Generating 256 tokens in parallel with each forward pass allows every token to attend to all others. This provides significant advantages for non-linear domains such as in-line editing, code infilling, amino acid sequences or mathematical graphs.
双向注意力机制:每次前向传递并行生成 256 个模型 token,使得每个 token 都能关注到其他所有 token。这对于非线性领域(如行内编辑、代码填空、氨基酸序列或数学图结构)具有显著优势。
Intelligent self-correction: The model iteratively refines its own output, allowing it to evaluate the entire text block at once to fix mistakes in real-time.
智能自我修正:模型迭代式地优化自身输出,能够一次性评估整个文本块,实时修正错误。
Experimental status & production recommendations: Because it prioritizes speed and parallel layout generation, DiffusionGemma’s overall output quality is lower than standard Gemma 4. For applications that demand maximum quality, we recommend deploying standard Gemma 4.
实验性状态与生产建议:由于优先考虑速度和并行布局生成,DiffusionGemma 的整体输出质量低于标准 Gemma 4。对于追求最高质量的应用,我们建议部署标准 Gemma 4。
You can improve DiffusionGemma's performance on specific tasks through fine-tuning. In the example below, Unsloth fine-tuned DiffusionGemma to play Sudoku — a task autoregressive models struggle with because each token depends on future tokens. DiffusionGemma's bi-directional attention makes this much easier.
你可以通过微调来提升 DiffusionGemma 在特定任务上的表现。在下面的例子中,Unsloth 对 DiffusionGemma 进行了微调,使其能够玩数独游戏——这是一项自回归模型难以处理的任务,因为每个 token 都依赖于未来的 token。DiffusionGemma 的双向注意力机制大大简化了这一点。
Fine-tuned DiffusionGemma solving Sudoku.
微调后的 DiffusionGemma 在解数独。
Why diffusion for text?
为何选择扩散模型用于文本?
While the AI research community has explored diffusion-based text generation for years, applying it to large models has remained a challenge. DiffusionGemma changes this by shifting how models use hardware.
尽管 AI 研究社区探索基于扩散模型的文本生成已有多年,但将其应用于大模型始终是一个挑战。DiffusionGemma 通过改变模型使用硬件的方式扭转了这一局面。
The trade-off with traditional models
传统模型的权衡取舍
Most language models act like a typewriter, generating one token at a time from left to right. In the cloud, this is efficient because servers can batch thousands of user requests together to share the hardware load. But when run locally for a single user, this word-by-word process leaves your dedicated GPU or TPU underutilized — it spends most of its time simply waiting for the next "keystroke."
大多数语言模型如同打字机一般,从左到右逐个生成模型 token。在云端,这种方式是高效的,因为服务器可以将成千上万的用户请求批量处理,共享硬件负载。但若在本地为单个用户运行,这种逐词生成的过程会使你的专用 GPU 或 TPU 利用率不足——它大部分时间都在等待下一个“按键”。
DiffusionGemma 扭转了这种低效局面。它不是逐个预测单词,而是同时起草一整段 256 个 token 的段落。通过一次性给计算机处理器分配更大的工作块,DiffusionGemma 充分利用了你的硬件潜力。它将模型推理从单个、顺序的打字机升级为一台巨大的印刷机,一次性印出整块文本。
视频 1
Hugging Face 的 DiffusionGemma 文本到 3D SVG 演示。逐步生成。
这意味着 DiffusionGemma 的加速专为本地和低并发推理而设计。在高 QPS 的云端服务中,自回归模型可以通过部署来高效地饱和计算资源,因此 DiffusionGemma 的并行解码带来的收益递减,并可能导致更高的服务成本。其吞吐量优势在单个加速器上的低到中等批量大小下最为显著。
文本扩散的工作原理
类似于 AI 图像生成器从视觉静态开始,并逐步迭代将其细化为清晰的图像,DiffusionGemma 将此过程应用于文本:
1. 画布:模型从一个由随机占位 token 组成的画布开始。 2. 迭代细化:模型进行多次遍历,锁定正确的 token,并将它们作为上下文线索来细化其余部分。 3. 最终打磨:文本收敛为高质量输出。
视频 2
由于模型可以在生成的同时处理整个段落,它解锁了新的模型行为模式,例如完美闭合复杂的 Markdown 格式,或近乎实时地生成并渲染代码。
今天就开始使用吧。
下载权重:现在即可在 Hugging Face 上获取实验性模型权重(基于宽松的 Apache 2.0 许可发布)。
集成与学习:在 DiffusionGemma 开发者指南中了解更多。或深入阅读《DiffusionGemma 可视化指南》,理解其底层机制。
使用你喜爱的开发工具:通过 MLX、vLLM(由 Red Hat 支持集成)和 Hugging Face Transformers 高效部署模型。为了快速实验,我们发布了一份使用 Hackable Diffusion(一个专为可组合性设计的模块化 JAX 工具箱)的微调教程。你也可以探索使用 Unsloth 和 NVIDIA NeMo 进行微调。此外,对 llama.cpp 的官方支持即将上线。
体验优化性能:我们与 NVIDIA 合作,在其硬件堆栈上进行了优化,确保兼容消费级环境(为 GeForce RTX 5090 和 4090 GPU 量化),同时在企业级系统(使用先进 NVFP4 内核的 Hopper 和 Blackwell)上实现高性能,包括用于本地桌面部署的 NVIDIA DGX Spark 和 DGX Station,以及面向 AI 专业人士的 RTX PRO。对 NVFP4(4 位浮点数)的原生支持加速了计算吞吐量,使模型能够以更快的速度运行,同时保持近乎无损的精度。
按你的方式尝试:在你的桌面专用 GPU 上运行,或通过 Gemini Enterprise Agent Platform Model Garden 或 NVIDIA NIM 在云端运行。
发布在:
阅读更多
更多信息
1
注意:由于这种加速依赖于利用加速器的高计算强度,像 Apple Silicon Mac 这样的统一内存架构——在推理过程中往往受内存带宽限制而非计算限制——可能无法像 Gemma 4 这样的自回归模型那样获得相同的加速效果。
收起
相关故事
开发者工具 #### 看看 3 位开发者用 Gemma 4 构建了什么 作者:Amy Eisinger 2026 年 6 月 9 日
开发者工具 #### 将最新的 Gemini 模型带给 Apple 开发者 作者:Nicholas McNamara & Thevi Sundaralingam 2026 年 6 月 8 日
开发者工具 #### Gemma 4 QAT 模型:优化移动和笔记本电脑效率的模型压缩 作者:Olivier Lacombe & Omar Sanseviero 2026 年 6 月 5 日
开发者工具 #### Kaggle 让 AI 基准测试创建变得轻而易举 作者:Nicholas Kang & Andrew Wang 2026 年 6 月 4 日
开发者工具 #### 介绍 Gemma 4 12B:一个统一的、无编码器的多模态模型 作者:Olivier Lacombe & Gus Martins 2026 年 6 月 3 日
AI #### 我们如何利用 Gemini 打造 Google I/O 2026 作者:Marvin Chow 2026 年 6 月 1 日
.
跳转到位置 1 跳转到位置 2 跳转到位置 3 跳转到位置 4 跳转到位置 5 跳转到位置 6
让我们保持联系。将 Google 的最新资讯发送到您的邮箱。
订阅 不用了,谢谢