GLM-4.7登顶Artificial Analysis全球开源榜首

2025-12-30 10:19

175

在全球知名的权威大模型评测榜单Artificial Analysis Intelligence Index（AA智能指数）中，GLM-4.7以68分综合成绩荣登开源模型与国产模型双料榜首、全球第六。

Artificial Analysis Intelligence Index重点考核模型的知识储备、逻辑推理、代码生成及Agent（智能体）等核心维度，被业界公认为最能代表模型综合实力的风向标。

欢迎大家前往智谱开放平台bigmodel.cn体验。

榜单链接：https://artificialanalysis.ai/models/glm-4-7

它到底强在哪？

很多开发者，包括我在内，最关心的其实不是分数，而是手感。GLM-4.7这次明显是奔着“解决难题”去的，它被定义为一款专注于推理的模型。

首先是写代码。对于我们这些靠代码吃饭的人来说，Code Arena的排名就是风向标。GLM-4.7在这个榜单上拿了开源第一，甚至在综合性能上压过了GPT-5.2。在LiveCodeBench测试里，它也超过了Claude Sonnet 4.5。虽然在某些特定测试集上还有偏科，但你让它写个复杂脚本或者查个Bug，它的表现已经不再是“像个AI”，而是“像个初级工程师”。

其次是它变“聪明”了。这里的聪明指的是逻辑推理。在研究生级别的GPQA Diamond测试里，它拿了84%的高分。为了达到这个效果，智谱给它引入了更长的思维链。简单说，就是它在回答你之前，会像人一样在肚子里打草稿，反复推演。虽然这会让计算成本稍微增加一点，但为了那个准确的答案，这点等待是值得的。

还有一个亮点是“听指挥”。在考察智能体工具调用的测试中，它刷新了开源模型的纪录。这意味着，你可以更放心地把API接给它，让它去操作复杂的系统，而不是担心它听不懂指令乱搞一通。

好文章，需要你的鼓励