智谱AI发布GLM-4.7,刷新开源模型SOTA标准

2025-12-23 10:41
116
GLM-4.7上线并开源。新版本面向Coding场景强化了编码能力、长程任务规划与工具协同,并在多项主流公开基准测试中取得开源模型中的领先表现。
目前,GLM-4.7已通过BigModel.cn提供API,并在z.ai全栈开发模式中上线Skills模块,支持多模态任务的统一规划与协作。


Coding能力再提升

GLM-4.7在编程、推理与智能体三个维度实现突破:
更强的编程能力:显著提升了模型在多语言编码和在终端智能体中的效果;GLM-4.7现在可以在Claude Code、TRAE、Kilo Code、Cline和Roo Code等编程框架中实现“先思考、再行动”的机制,在复杂任务上有更稳定的表现。
前端审美提升:GLM-4.7在前端生成质量方面明显进步,能够生成观感更佳的网页、PPT、海报。
更强的工具调用能力:GLM-4.7提升了工具调用能力,在BrowseComp网页任务评测中获得67.5分;在τ²-Bench交互式工具调用评测中实现87.4分的开源SOTA,超过Claude Sonnet 4.5。
推理能力提升:显著提升了数学和推理能力,在HLE("人类最后的考试")基准测试中获得42.8%的成绩,较GLM-4.6提升41%,超过GPT-5.1。
通用能力增强:GLM-4.7对话更简洁智能且富有人情味,写作与角色扮演更具文采与沉浸感。

Code Arena:全球百万用户参与盲测的专业编码评估系统,GLM-4.7位列开源第一、国产第一,超过GPT-5.2。
在主流基准测试表现中,GLM-4.7的代码能力对齐Claude Sonnet 4.5:在SWE-bench-Verified获得73.8%的开源SOTA分数;在LiveCodeBench V6达到84.9%的开源SOTA分数,超过Claude Sonnet 4.5;SWE-bench Multilingual达到66.7%(提升12.9%);Terminal Bench 2.0达到41%(提升16.5%)。

最佳应用场景

基于其特性,GLM-4.7最适合以下场景:
成本敏感型Agent开发:如果你正在构建需要自我修正、多轮循环的自动化工作流,GLM-4.7是目前唯一的经济型选择。
企业私有化部署:基于MIT协议开源,企业可以合法地将其部署在本地H100集群上,处理金融、法律等敏感数据,无需担心数据出境。
前端全栈开发:结合"Vibe Coding"能力,通过简单描述直接生成现代化的React/Vue组件,不仅代码正确,而且样式美观。
复杂科研与长文档分析:利用200K上下文和HLE级别的高智商,处理数万字的论文综述或法律合同。
0
好文章,需要你的鼓励