蚂蚁集团开源LLaDA 2.1:扩散语言模型推理速度飙至892 tokens/s,正面挑战自回归范式

2026-02-11 10:56
71
2月10日消息,蚂蚁集团旗下InclusionAI团队正式开源了LLaDA 2.1系列扩散语言模型,包含16B参数的Mini版本和1000亿参数的Flash版本。这是继去年11月LLaDA 2.0之后的重要迭代,核心创新在于提出了"Token Editing"(Token编辑)机制,在编码任务上实现了最高892 tokens/s的推理速度,同时在33项基准测试中保持了强劲的任务表现。论文已发布在arXiv(编号2602.08676),模型权重在Hugging Face和ModelScope上完全开源,采用Apache 2.0许可证。


技术核心:从"填空"到"填空+改错"

要理解LLaDA 2.1的突破,需要先回顾一下扩散语言模型的工作原理。当前主流大模型(如GPT、Claude、Qwen等)都采用自回归(Autoregressive)方式生成文本——从左到右逐个预测下一个token,就像一个人在一字一句地写文章。而扩散语言模型的思路完全不同:它先生成一堆被"遮住"的占位符,然后通过多轮去噪,逐步把这些占位符替换成真正的文字,有点像同时填写一整张完形填空试卷。
LLaDA 2.0已经证明了这种方式可以扩展到1000亿参数规模,并且在代码生成、指令遵循等任务上表现出色。但它面临一个核心矛盾:解码速度和生成质量之间的平衡。降低去噪阈值可以加快速度,但会导致输出质量下降;提高阈值能保证质量,但速度又会变慢。
LLaDA 2.1的解法是引入了Token-to-Token(T2T)编辑机制,和原有的Mask-to-Token(M2T)方案结合使用。简单来说,以前的流程是"把遮住的位置填上正确的字",现在变成了"先快速填空,再对已经填好的字进行修改校正"。这就像考试时先快速把所有空格都填上答案,然后回头检查修改明显的错误。

两种模式:速度和质量你选哪个

基于这个机制,LLaDA 2.1设计了两种可配置的解码模式:
Speed Mode(S模式) 大幅降低M2T阈值来加快初始填空速度,然后依靠T2T编辑来修正输出中的错误。适合对延迟敏感的场景,比如实时代码补全。
Quality Mode(Q模式) 使用保守的阈值确保初始填空的准确性,再用T2T做精细打磨。适合需要高准确率的任务,比如复杂推理和数学证明。
用户可以通过thresholdediting_threshold两个参数灵活切换。官方推荐Quality Mode使用threshold=0.7、editing_threshold=0.5,Speed Mode使用threshold=0.5、editing_threshold=0.0。

性能数据:编码速度是同级别模型的数倍

LLaDA 2.1在编码任务上的推理速度相当惊人。Flash版本(1000亿参数)在Speed Mode下的表现:HumanEval+上达到892 tokens/s,BigCodeBench上801 tokens/s,LiveCodeBench上663 tokens/s。
作为参考,LLaDA 2.0的Flash-CAP版本最高推理速度为535 tokens/s,2.1相比2.0在速度上又有了大幅提升。而同等参数规模的自回归模型,单卡推理速度通常在几十到一两百tokens/s之间。扩散模型的并行解码优势在大规模参数下愈发明显。
在质量方面,LLaDA 2.1在33项基准测试中均展现出强劲表现。LLaDA 2.0就已经在47项测试中取得了73.18的平均分,与同为MoE架构的Qwen3-30B-A3B-Instruct处于同一水平线,并在代码(HumanEval、MBPP)和Agent任务(BFCL)等结构化生成领域显示出明显优势。2.1版本在此基础上进一步优化,尤其是通过引入大规模强化学习框架提升了推理精度和指令遵循能力。

首个大规模扩散模型强化学习框架

LLaDA 2.1的另一个重要贡献是实现了首个专门面向大规模扩散语言模型的强化学习(RL)训练框架。自回归模型的RL后训练(如RLHF、DPO)已经比较成熟,但扩散模型因为生成机制不同,无法直接套用现有方案。
InclusionAI团队为此设计了专用的RL算法和框架,支持在1000亿参数规模的扩散模型上进行强化学习训练。根据团队的说法,这种对齐训练不仅提升了推理精度,也增强了模型对复杂人类指令的理解和遵循能力。这填补了扩散语言模型在后训练阶段的一个重要空白。

背景:扩散模型为何值得关注

扩散模型在图像和视频生成领域早已大放异彩(Stable Diffusion、Sora都是典型代表),但在文本生成领域,自回归范式一直是绝对主流。这种格局从2025年初开始松动。
2025年2月,中国人民大学和蚂蚁集团联合发布了初代LLaDA(8B参数),首次证明扩散模型在语言任务上可以与LLaMA3 8B一较高下,甚至在"反转诅咒"测试中超越了GPT-4o。之后团队陆续推出了LLaDA-V(多模态版本)、LLaDA-MoE(混合专家架构),以及去年11月的LLaDA 2.0——将参数规模推到了1000亿,成为史上最大的扩散语言模型。
与此同时,Google在2025年5月的I/O大会上展示了Gemini Diffusion,推理速度达到1479 tokens/s。扩散语言模型正在从学术探索走向实用化,形成了一个新的技术赛道。

工程优化:不只是学术成果

LLaDA 2.1不只是一篇论文,还做了大量工程落地的优化工作。团队基于自研的dInfer推理引擎和SGLang框架,实现了KV-Cache复用和块级并行解码,让1000亿参数的模型具备了实际部署能力。
此前南华早报报道过,蚂蚁集团的dInfer框架在LLaDA-MoE模型上的代码生成速度达到1011 tokens/s,是NVIDIA的Fast-dLLM的10倍,是阿里巴巴Qwen-2.5-3B配合vLLM方案的3.4倍。LLaDA 2.1在此基础上继续优化,进一步缩小了扩散模型在实际部署中与自回归模型的差距。
模型支持通过SGLang启动HTTP推理服务,4卡即可运行Flash版本。团队建议输出长度设为16384 tokens以获得最佳效果。

开源与后续计划

LLaDA 2.1的Mini(16B)和Flash(100B)两个版本的权重已完全开源,可在Hugging Face(inclusionAI/LLaDA2.1-flash)和ModelScope上获取,采用Apache 2.0许可证。
根据GitHub仓库的信息,团队接下来还有几个明确的计划:为LLaDA加入强大的Agent和远距离工具调用能力;推出"极限编辑"(Extreme Editing)功能,通过更广泛的编辑能力来纠正并行推理中的更多错误;探索SFT和RL之外的新训练范式。

ChooseAI点评

LLaDA 2.1标志着扩散语言模型从"能用"向"好用"迈进了关键一步。它的Token Editing机制巧妙地解决了速度和质量的取舍问题,而首个大规模RL框架则为扩散模型的后训练开辟了新路径。
当然,扩散模型距离全面取代自回归范式还有很长的路要走。在通用知识问答和开放式对话等任务上,扩散模型仍然和顶级自回归模型存在差距。但在代码生成、结构化输出、Agent任务这些对并行性要求高的场景中,扩散模型的优势正在变得越来越实际。
对于AI开发者和研究者来说,LLaDA 2.1提供了一个质量不错、完全开源的1000亿参数扩散模型,值得动手试一试。
相关链接:
0
好文章,需要你的鼓励