谷歌 DiffusionGemma 重磅发布：扩散架构改写文本生成，速度暴涨 4 倍，4090 可本地运行

2026-06-11 21:38

在 Anthropic 与 OpenAI 的模型大战愈演愈烈之际，谷歌悄然推出颠覆性文本生成模型DiffusionGemma。

它首次将图像领域成熟的扩散技术应用于大语言模型，彻底打破传统自回归架构的速度瓶颈，实现了 “印刷机式” 的并行文本生成，同时以 Apache 2.0 协议完全开源，为本地部署与商业应用打开了全新空间。

一、性能炸裂：速度碾压自回归，消费级显卡可跑

DiffusionGemma 的核心优势是极致的生成速度。实测数据显示，在单块 H100 显卡上（FP8 精度，batch size=1），它的输出速度突破1000 token/s；在消费级 RTX 5090 上也能达到 700+ token/s，是同规格自回归模型的 4 倍。

谷歌 DiffusionGemma 重磅发布：扩散架构改写文本生成，速度暴涨 4 倍，4090 可本地运行

即便是搭载 MTP 加速的 Gemma 4 26B，速度也仅为 300+ token/s。参数与部署门槛同样亲民：这款 26B 参数的 MoE 模型，推理时仅激活 3.8B 参数，经过 FP8 量化后仅需 18GB 显存即可运行，一张 RTX 4090 就能实现流畅的本地部署。

目前模型权重已在 Hugging Face 开放下载，采用允许商用的 Apache 2.0 协议，开发者可直接用于生产环境。

二、技术革新：从 “打字机” 到 “印刷机” 的架构革命

传统 GPT、Claude 等大模型均采用自回归架构，如同打字机一般逐 token 生成文本，每输出一个新词都需要重新加载全部模型权重，导致本地运行时 GPU 算力大量闲置，陷入 “内存带宽瓶颈”。DiffusionGemma 则借鉴了 Stable Diffusion 的图像生成逻辑，采用 “印刷机式” 并行生成模式：

首先铺开一张包含 256 个 token 的随机噪声画布，然后通过多轮迭代去噪，高置信度的 token 先被锁定，再以此为线索修正其余部分，最终整段文字同时收敛成型。这种模式充分调动了 GPU 的并行计算能力，将瓶颈从内存搬运转变为算力输出，而这正是 GPU 最擅长的领域。

三、独特能力：双向注意力实现实时自我纠错

除了速度优势，扩散架构还赋予了 DiffusionGemma 自回归模型难以具备的双向注意力能力。传统自回归模型生成第 N 个 token 时，只能看到前面的内容，无法预判后续逻辑；而 DiffusionGemma 的所有 token 同时生成，每个 token 都能感知全局上下文，支持边生成边修正错误。

谷歌用数独游戏直观展示了这一优势：由于数独需要前后数字相互约束，自回归模型的解题成功率几乎为 0，而微调后的 DiffusionGemma 成功率飙升至 80%。这一特性让它在代码补全、行内编辑、复杂 Markdown 格式化等需要全局协调的场景中，拥有天然的结构性优势。

四、定位与行业影响：谷歌的 “速度赛马” 实验

谷歌明确表示，DiffusionGemma 目前定位为 “实验性模型”，其综合能力仍略逊于同参数的 Gemma 4，生产环境仍推荐使用标准自回归模型。它的核心适用场景是对速度敏感的本地交互，比如实时对话、快速草稿生成、轻量代码编写等。尽管并非颠覆性的全能模型，但 DiffusionGemma 的意义远超技术演示本身。

谷歌为其配备了完整的生态支持，NVIDIA 从 RTX 消费级显卡到 H100 数据中心芯片全线适配，vLLM、MLX、Unsloth 等主流推理框架均已提供支持。它的开源彻底打开了扩散文本模型的赛道，证明了并行生成的可行性，为下一代大模型的技术路线提供了全新方向。

这场由谷歌发起的 “速度革命”，或将倒逼整个行业重新思考大模型的架构设计。未来，自回归与扩散架构很可能形成互补，分别主导高质量生成与极速交互场景，共同推动 AI 能力的进一步普惠。

好文章，需要你的鼓励