Google 开源 DiffusionGemma,基于扩散架构,一次性生成大段文本再逐步优化。H100 上达 1000+ tokens/s,RTX 5090 上 700+ tokens/s。26B 参数仅需 18GB 显存,一次生成 256 tokens。多轮迭代自我纠错,可修改已生成内容。
Google 开源其扩散架构模型:DiffusionGemma
区别于Transformers 模型像打字机一样逐词一个一个生成
DiffusionGemma 可一次性生成大段或者整篇内容,然后再逐步优化
大幅度提高生成的速度:
在H100 上可实现 1000+ tokens/s,RTX 5090 上 700+ tokens/s
26B,18GB 显存能跑 一次可同时生成 256 个 tokens
自己检查自己,写完还能改:
普通 AI 写完一个字就锁死了,不会回头改。就算第 10 个字写错了,到第 100 个字的时候它也改不了前面的。
DiffusionGemma 的生成过程本身就是多轮迭代,每一轮它会重新审视整块文本,发现哪里不对就改掉。就像写作文先打草稿,再通读一遍改错别字,再读一遍调语句,几轮下来质量就上去了。