GLM-5深度解读:智谱AI发布744B参数开源大模型,从Vibe Coding迈向Agentic Engineering

2026-02-18 11:28
83
2月11日,智谱AI(Z.ai)正式发布了其新一代旗舰基座模型GLM-5。这款拥有744B总参数的超大规模语言模型,以MIT协议完全开源,并提出了一个引人注目的理念转变:从"Vibe Coding"走向"Agentic Engineering"。GLM-5在编程、推理和智能体任务上全面刷新开源模型纪录,多项指标直逼Claude Opus 4.5等闭源前沿模型。

本文将从模型架构、核心技术创新、基准测试表现、实际应用场景和部署方式等维度,为你全面拆解这款中国AI力量的最新力作。

GLM-5基本信息一览

GLM-5的核心规格如下:
  • 总参数量:744B(每次推理激活约40B)
  • 架构:MoE混合专家架构,包含256个专家模块,每次推理激活Top-8
  • 预训练数据:28.5万亿tokens(相比GLM-4.5的23万亿大幅增长)
  • 上下文窗口:最大支持200K输入tokens,128K输出tokens
  • 注意力机制:集成DeepSeek稀疏注意力(DSA)
  • 开源协议:MIT License
  • 发布时间:2026年2月11日
  • 模型权重:Hugging Face 和 ModelScope 均已公开
相比前代GLM-4.5(355B参数/32B激活),GLM-5在参数规模上实现了约2倍的跃升,同时通过MoE架构保持了推理效率——每个token只需激活约5.9%的参数,这使得实际部署成本远低于同等规模的稠密模型。

从Vibe Coding到Agentic Engineering:核心理念转变

GLM-5论文标题中"从Vibe Coding到Agentic Engineering"的表述,精准概括了当前AI编程领域的范式转变。
"Vibe Coding"(氛围编程)是由Andrej Karpathy等人推广的概念,描述的是用户通过自然语言描述需求,AI模型生成代码的交互方式。这种模式虽然降低了编程门槛,但在面对复杂系统工程时往往力不从心——它更像是让一个才华横溢的初级开发者帮你写代码片段。
而"Agentic Engineering"(智能体工程)则代表了更高层次的能力:模型不再只是根据指令生成代码,而是能够像一名资深架构师那样,自主规划任务、调用工具、执行多步骤操作、进行错误修正,并在长时间跨度内保持目标一致性。简单来说,GLM-5的目标是从"对话框里聊编程"进化到"自主完成端到端的软件工程任务"。

三大核心技术创新

1. DeepSeek稀疏注意力(DSA)集成

GLM-5引入了DeepSeek Sparse Attention机制,这是一种能够在大幅降低计算开销的同时保持长上下文处理能力的注意力机制。对于需要处理大量代码库或长文档的工程场景,DSA让GLM-5能够在200K tokens的超长上下文中保持高质量的理解和生成能力,同时将部署成本控制在可接受范围内。

2. Slime异步强化学习基础设施

强化学习(RL)是让预训练模型从"能用"跨越到"好用"的关键技术,但传统RL在大语言模型上的训练效率一直是瓶颈。智谱AI为此开发了名为"Slime"的全新异步RL基础设施。
Slime的核心思路是将生成过程(generation)和训练过程(training)解耦,打破了传统同步RL中"长尾"任务拖慢整体训练速度的瓶颈。具体来说,Slime采用了三模块架构:基于Megatron-LM的高性能训练模块、独立的轨迹生成模块(rollout module),以及整体协调模块。通过Active Partial Rollouts(APRIL)等系统级优化,Slime解决了通常占据RL训练90%以上时间的生成瓶颈,让模型能够从复杂的长周期交互中更有效地学习。

3. 异步智能体RL算法

在Slime基础设施之上,GLM-5还引入了新的异步智能体RL算法,进一步提升了RL训练质量。这些算法让模型能够在更复杂、更长周期的智能体交互场景中学习决策和规划能力——这正是从Vibe Coding迈向Agentic Engineering所需的核心能力。

基准测试表现:开源模型全面领先

GLM-5在多个权威基准测试中取得了开源模型最高分数,部分指标已接近甚至超越部分闭源前沿模型。

编程能力

  • SWE-bench Verified:77.8分(开源最高),超越Gemini 3.0 Pro的76.2分,接近Claude Opus 4.6的80.9分
  • Terminal Bench 2.0:56.2分(开源最高)
  • SWE-bench Multilingual:同样表现出色
在智谱AI内部与Claude Code任务分布对齐的评估中,GLM-5在前端开发、后端工程和长周期任务上均大幅超越了GLM-4.7,使用体验逼近Claude Opus 4.5。

智能体能力

  • BrowseComp(联网检索与信息理解):开源第一
  • MCP-Atlas(工具调用和多步骤任务执行):开源第一
  • τ²-Bench(复杂多工具场景下的规划和执行):开源第一
  • Vending Bench 2(长期运营能力):开源第一,最终账户余额达4,432美元,接近Claude Opus 4.5
Vending Bench 2是一个非常有趣的基准测试——它要求模型在一年的模拟时间跨度内经营一家自动售货机业务,涉及长期规划、资源管理和动态决策,非常考验模型在长周期任务中的综合能力。

知识可靠性

值得特别关注的是,GLM-5在Artificial Analysis Intelligence Index v4.0的AA-Omniscience指标上取得了-1分的成绩,相比前代提升了35个点。这意味着GLM-5在"知道自己不知道什么"这件事上做得非常好——当模型对答案不确定时,它会选择拒绝回答而不是编造信息。这一幻觉率表现在整个AI行业中处于领先地位。

实际应用场景

GLM-5的设计定位非常明确:面向复杂系统工程和长周期智能体任务。以下是它最擅长的应用场景:
全栈自主编程——GLM-5能够根据自然语言需求自动生成可运行的代码,覆盖前端、后端和数据处理等完整开发流程。它可以自主完成后端重构、深度调试和长程规划执行,显著缩短从需求到产品的迭代周期。
长周期智能体任务——从理解需求、制定计划、执行操作到自我检查,GLM-5能够在模糊和复杂的目标下完成全流程智能体任务。搭配OpenClaw框架,它甚至可以跨越应用和设备边界执行操作。
Agent模式与办公文档生成——GLM-5原生支持Agent模式,能够调用多种工具和技能,将原始需求或素材直接转化为可用的.docx、.pdf、.xlsx等专业办公文档。

部署与使用方式

API调用

GLM-5已在智谱AI开放平台(open.bigmodel.cn)和Z.ai API平台上线,支持通过API直接调用。API兼容Anthropic/OpenAI格式,可以无缝集成到现有的开发工作流中。

本地部署

GLM-5的模型权重已在Hugging Face和ModelScope上公开,支持通过vLLM、SGLang等主流推理框架进行本地部署。FP8量化版本(zai-org/GLM-5-FP8)是最常见的部署选择,需要8张GPU进行张量并行。

编程工具集成

GLM-5已适配Claude Code、OpenCode、Kilo Code、Roo Code、Cline和Droid等主流Coding Agent工具。智谱AI的Coding Plan($10/月起)为开发者提供了经济高效的使用方案。

国产硬件适配

值得一提的是,GLM-5已适配华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等多款国产芯片,通过底层Kernel优化与模型量化技术实现了可观的推理吞吐量,这对国内用户的本地化部署非常友好。

第三方平台

GLM-5也已上线OpenRouter、NVIDIA NIM等第三方推理服务平台,提供了多样化的使用渠道。

定价参考

根据Artificial Analysis的数据,GLM-5(推理模式)的API定价约为每百万输入tokens 1.00美元,每百万输出tokens 3.20美元。生成速度约为76.5 tokens/秒,首token延迟约1.47秒。对于追求性价比的开发者来说,GLM-5的MoE架构使其在同等能力水平下的成本远低于等参数规模的稠密模型。

客观评价与已知局限

尽管GLM-5在基准测试上表现亮眼,但一些独立测试也揭示了需要注意的问题。有开发者在实际测试中发现,GLM-5在非标准化任务上的输出一致性存在波动——相同的任务多次运行可能产生差异较大的结果。此外,在有时间限制的场景下,GLM-5的完成率可能低于预期。
另一个值得关注的点是,GLM-5目前仅支持文本输入输出,暂不支持多模态(视觉/音频)能力。
同时,744B的参数规模也意味着本地部署需要相当规模的硬件资源,对于中小团队来说,通过API调用可能是更实际的选择。

总结

GLM-5代表了中国开源大模型在编程和智能体能力上的一次重大突破。它通过MoE架构、DSA注意力机制和Slime异步RL等技术创新,在保持部署效率的同时实现了接近闭源前沿模型的性能水平。MIT开源协议更是为开发者和企业提供了极大的使用灵活性。
从"Vibe Coding到Agentic Engineering"不仅是GLM-5的产品定位,更反映了整个AI编程领域的演进方向——从辅助代码生成走向自主系统工程。对于关注AI开发工具的开发者来说,GLM-5无疑是2026年初最值得关注和尝试的开源模型之一。


快速体验入口
  • 在线体验:chat.z.ai
  • API文档:docs.z.ai
  • 模型权重:huggingface.co/zai-org/GLM-5
  • GitHub仓库:github.com/zai-org/GLM-5
0
好文章,需要你的鼓励