GLM-5深度解析:编程与Agent能力全面逼近Claude Opus 4.5
2026-02-12 11:57
58
2026年2月11日,智谱AI正式发布新一代旗舰大模型GLM-5。此前在OpenRouter上以"Pony Alpha"之名悄然登顶的神秘模型终于揭晓身份——744B参数的MoE架构巨兽,开源阵营的新王者。本文将从架构升级、核心能力、实测表现、使用方式和定价等维度全面解析GLM-5。

GLM-5是什么?
GLM-5是智谱AI(Z.AI)推出的最新一代旗舰基础模型,定位于复杂系统工程与长程Agent任务。它不是简单的"写代码工具",而是一个能够自主规划、执行、调试、迭代的工程级AI助手。
在智谱的产品线中,GLM-5接替了此前的GLM-4.7,代表着从"Vibe Coding"到"Agentic Engineering"的范式转变——AI不再只是回答问题或生成代码片段,而是能像一个工程团队一样持续推进复杂项目。
核心参数一览
GLM-5在架构层面实现了全面升级:
- 总参数量:744B(较上一代GLM-4.5的355B翻倍)
- 激活参数:40B(从32B提升至40B)
- 架构:MoE(混合专家),256个专家,每个token激活8个,稀疏率5.9%
- 预训练数据:28.5T tokens(从23T大幅扩展)
- 上下文窗口:200K输入 / 128K输出
- 注意力机制:首次集成DeepSeek稀疏注意力(DSA),在保持长文本质量的同时大幅降低部署成本
- 训练框架:全新异步强化学习框架"Slime",显著提升后训练效率
值得注意的是,GLM-5在vLLM推理框架中的实现逻辑被社区发现与DeepSeek-V3架构高度相关,采用了相同的稀疏注意力方案。DSA通过Lightning Indexer快速扫描历史token并评分,只对Top-k高相关token执行完整注意力计算,其余全部跳过——这使得GLM-5能在庞大参数量下保持可用的推理速度。
"Pony Alpha"揭秘:从匿名黑马到官方认领
GLM-5的发布过程本身就是一段戏剧性的故事。
2月6日,OpenRouter平台上出现一个名为"Pony Alpha"的匿名模型,没有任何宣传,却因极强的编程和推理能力迅速冲上热度榜首。开发者社区91%以上的用户判断它就是GLM-5测试版。这一事件直接推动智谱港股两日暴涨60%。
2月11日,智谱官方正式确认"Pony Alpha"即为GLM-5。"Pony"这个代号是为2026马年埋下的彩蛋。
编程能力:开源SOTA,逼近Claude Opus 4.5
GLM-5在编程领域的表现是此次发布的最大亮点。根据官方和第三方评测数据:
权威基准测试成绩:
- SWE-bench Verified:77.8分,开源模型最高
- Terminal Bench 2.0:56.2分,超越Gemini 3.0 Pro
- SWE-bench Multilingual:73.3分
- CyberGym:表现优异
- AIME 2026 I:92.7%(数学推理)
- GPQA-Diamond:86.0%(科学推理)
在Artificial Analysis全球权威榜单中,GLM-5位居全球第四、开源模型第一。
第三方评测者AICodeKing的代理编程(Agentic Coding)测试显示,GLM-5拿到589分,而Claude Opus 4.6为585分——在自主修Bug、多文件编辑、复杂项目构建等场景上,GLM-5已经排到第一。
智谱内部评估同样显示,GLM-5在前端开发、后端系统工程、长程执行任务等场景中,较上一代GLM-4.7平均性能提升超过20%,真实编程体验逼近Claude Opus 4.5水平。
Agent能力:开源第一,长程任务的新标杆
GLM-5另一个核心卖点是其Agent(智能体)能力。在三项关键Agent评测中均取得开源最优:
- BrowseComp(联网检索与信息理解):62.0分
- MCP-Atlas(大规模端到端工具调用):开源第一
- τ²-Bench(复杂场景下自动代理规划与执行):开源第一
这意味着GLM-5不仅会写代码,还能自主理解需求、规划步骤、调用工具、检查结果并迭代优化——完成从理解到交付的完整链条。
长程任务实测:24小时连续运行,700+工具调用零衰减
E01.ai团队对GLM-5进行了一场极具说服力的长程任务压力测试——从零用JavaScript构建一个Game Boy Advance模拟器,并嵌入3D渲染场景。
这项测试的核心发现:
零衰减的一致性:在超过700次工具调用和800次上下文切换中,GLM-5的表现完全没有退化。第700次工具调用与第1次一样可靠。
指令遵循不衰退:在系统提示中定义的规范、标准和测试流程,在800次上下文重置后仍被严格遵循。
上下文接力成功:每次上下文被清空后,GLM-5都能从笔记文件中准确重建工作状态,几乎零信息损失地继续推进。
工程判断力:当给出参考代码时,GLM-5能理解架构设计后自主重新实现,而非简单复制——这体现了真正的工程判断能力。
测试还揭示了一些有趣的长程任务挑战。GLM-5偶尔会陷入跨会话的"隐藏循环"——单次会话输出看不出问题,但需要人类退后一步才能发现模式。此外,模型有时过于勤勉,会花大量token尝试生成3D资源,而这些工作人类可以更高效地完成。这些发现对AI Agent的可观测性和人机协作设计提供了宝贵参考。
使用方式与平台接入
GLM-5目前可通过以下方式使用:
1. 智谱清言(chat.z.ai)
最直接的体验方式。注册即可使用,新用户有免费额度。GLM-5将在一周内向Coding Plan专业版用户优先推出,之后逐步向所有用户开放。
2. API接入
通过智谱开放平台(BigModel)或Z.AI开发者平台调用。支持Python SDK和Java SDK,代码示例:
python
3. 编程工具集成
GLM-5可无缝接入Claude Code、OpenCode、Cline、Roo Code、CodeGeex等主流编程工具,作为后端模型驱动Agentic Coding工作流。
4. 开源部署
GLM-5已在Hugging Face开源(zai-org/GLM-5),支持vLLM、SGLang、xLLM等推理框架本地部署,提供FP8量化版本以降低显存需求。
5. 第三方平台
OpenRouter、SiliconFlow等第三方模型服务平台也已上线GLM-5。
定价与性价比
GLM-5的定价策略极具竞争力。完成同等复杂度的编程任务,Claude Opus 4.6大约需要6美元以上,而GLM-5仅需约0.14美元——成本差距达40倍。
不过需要注意,智谱同时宣布对GLM Coding Plan套餐进行价格调整,取消首购优惠,整体涨幅30%起,已订阅用户价格不变。这也从侧面反映了GLM产品线的市场需求确实在快速增长。
GLM-5与竞品对比
在2026年2月的AI大模型格局中,GLM-5的定位可以这样理解:
vs. Claude Opus 4.5/4.6:编程能力已非常接近,Agent能力在某些指标上甚至超越。最大优势是API成本低40倍,且完全开源。劣势在于通用对话、创意写作等领域仍有差距。
vs. DeepSeek系列:GLM-5直接采用了DeepSeek的稀疏注意力机制,架构理念相通。两者都强调编程和推理能力,但GLM-5在Agent基准测试上表现更突出。
vs. GPT-5系列:OpenAI的GPT-5系列在通用能力上仍有优势,但GLM-5在编程专项上已经可以正面竞争,且成本优势明显。
vs. Qwen 3.5 / MiniMax M2.5:这些模型与GLM-5几乎同期发布,形成了2026春节档的AI模型混战。具体优劣仍有待社区充分评测。
谁适合使用GLM-5?
GLM-5特别适合以下场景和用户:
软件开发者:无论是前端、后端还是全栈开发,GLM-5都能作为高效的编程伙伴。通过Claude Code等工具集成后,可以完成从需求理解到代码实现到Bug修复的完整流程。
AI应用开发者:GLM-5在工具调用(Function Calling)和多步骤Agent任务上的表现使其成为构建AI Agent应用的理想基座模型。
追求性价比的团队:对于调用量大的开发团队,GLM-5的API成本优势非常可观。开源特性还允许私有化部署,进一步控制成本。
开源社区贡献者:GLM-5开源且预计采用MIT协议,支持无限制商业使用、微调和社区研究。
总结
GLM-5的发布标志着国产AI大模型在编程和Agent能力上正式进入世界第一梯队。744B参数的MoE架构、开源SOTA的性能表现、40倍于竞品的成本优势,以及24小时无衰减的长程任务能力——这些特性组合在一起,使GLM-5成为2026年开年最值得关注的AI模型之一。
对于开发者而言,GLM-5提供了一个可能改变工作方式的工具:它不仅仅是一个能回答编程问题的聊天机器人,而是一个能持续推进工程项目、自主解决问题的AI工程师。
0
好文章,需要你的鼓励
