GLM-4.7登顶Artificial Analysis全球开源榜首

2025-12-30 10:19
175
在全球知名的权威大模型评测榜单Artificial Analysis Intelligence Index(AA智能指数)中,GLM-4.7以68分综合成绩荣登开源模型与国产模型双料榜首、全球第六。
Artificial Analysis Intelligence Index重点考核模型的知识储备、逻辑推理、代码生成及Agent(智能体)等核心维度,被业界公认为最能代表模型综合实力的风向标。

欢迎大家前往智谱开放平台bigmodel.cn体验。

它到底强在哪?

很多开发者,包括我在内,最关心的其实不是分数,而是手感。GLM-4.7这次明显是奔着“解决难题”去的,它被定义为一款专注于推理的模型。
首先是写代码。对于我们这些靠代码吃饭的人来说,Code Arena的排名就是风向标。GLM-4.7在这个榜单上拿了开源第一,甚至在综合性能上压过了GPT-5.2。在LiveCodeBench测试里,它也超过了Claude Sonnet 4.5。虽然在某些特定测试集上还有偏科,但你让它写个复杂脚本或者查个Bug,它的表现已经不再是“像个AI”,而是“像个初级工程师”。
其次是它变“聪明”了。这里的聪明指的是逻辑推理。在研究生级别的GPQA Diamond测试里,它拿了84%的高分。为了达到这个效果,智谱给它引入了更长的思维链。简单说,就是它在回答你之前,会像人一样在肚子里打草稿,反复推演。虽然这会让计算成本稍微增加一点,但为了那个准确的答案,这点等待是值得的。
还有一个亮点是“听指挥”。在考察智能体工具调用的测试中,它刷新了开源模型的纪录。这意味着,你可以更放心地把API接给它,让它去操作复杂的系统,而不是担心它听不懂指令乱搞一通。
0
好文章,需要你的鼓励