Google 开源扩散架构模型 DiffusionGemma · AI HOT

Google 开源扩散架构模型 DiffusionGemma · AI HOT

小互@xiaohu

74

2026-06-11 10:34·6天前

AI 摘要

Google 开源 DiffusionGemma，基于扩散架构，一次性生成大段文本再逐步优化。H100 上达 1000+ tokens/s，RTX 5090 上 700+ tokens/s。26B 参数仅需 18GB 显存，一次生成 256 tokens。多轮迭代自我纠错，可修改已生成内容。

Google 开源其扩散架构模型：DiffusionGemma

区别于Transformers 模型像打字机一样逐词一个一个生成

DiffusionGemma 可一次性生成大段或者整篇内容，然后再逐步优化

大幅度提高生成的速度：

在H100 上可实现 1000+ tokens/s，RTX 5090 上 700+ tokens/s

26B，18GB 显存能跑一次可同时生成 256 个 tokens

自己检查自己，写完还能改：

普通 AI 写完一个字就锁死了，不会回头改。就算第 10 个字写错了，到第 100 个字的时候它也改不了前面的。

DiffusionGemma 的生成过程本身就是多轮迭代，每一轮它会重新审视整块文本，发现哪里不对就改掉。就像写作文先打草稿，再通读一遍改错别字，再读一遍调语句，几轮下来质量就上去了。

Google开源/仓库推理模型发布

在 X 查看原推

小互@xiaohu · X

74

2026-06-11 10:34·6天前

AI 摘要

Google 开源 DiffusionGemma，基于扩散架构，一次性生成大段文本再逐步优化。H100 上达 1000+ tokens/s，RTX 5090 上 700+ tokens/s。26B 参数仅需 18GB 显存，一次生成 256 tokens。多轮迭代自我纠错，可修改已生成内容。

Google 开源其扩散架构模型：DiffusionGemma

区别于Transformers 模型像打字机一样逐词一个一个生成

DiffusionGemma 可一次性生成大段或者整篇内容，然后再逐步优化

大幅度提高生成的速度：

在H100 上可实现 1000+ tokens/s，RTX 5090 上 700+ tokens/s

26B，18GB 显存能跑一次可同时生成 256 个 tokens

自己检查自己，写完还能改：

普通 AI 写完一个字就锁死了，不会回头改。就算第 10 个字写错了，到第 100 个字的时候它也改不了前面的。

DiffusionGemma 的生成过程本身就是多轮迭代，每一轮它会重新审视整块文本，发现哪里不对就改掉。就像写作文先打草稿，再通读一遍改错别字，再读一遍调语句，几轮下来质量就上去了。

Google开源/仓库推理模型发布部署/工程

在 X 查看原推x.com