GPT-5.2考赢人类！大模型能力进入过剩年代

2026-01-11 16:16

135

GPT-5.2刚刚刷新了一项新纪录！

OpenAI联合创始人Greg Brockman发帖称使用GPT-5.2在ARC-AGI-2基准测试上，表现超过了人类基线水平。

在基准测试时技能爆表，但一到实际应用就「掉链子」，OpenAI前首席科学家Ilya Sutskever提到的这种大模型「性能悖论」我们并不陌生。

这也是AGI评估领域一个长期存在的难题——如何区分大模型「真正的推理能力」与「刷题型能力」。

而ARC-AGI-2的出现正好打破了这一难题。

ARC-AGI-2的全称为「Abstraction and Reasoning Corpus for Artificial General Intelligence-Version 2」，是ARC系列基准的最新升级版本。

该基准由François Chollet（Keras之父、前Google Brain研究员）及其团队在2025年推出，其设计初衷十分明确：

测试AI是否具备AGI所必需的抽象、归纳与迁移推理能力，而非记忆或统计模式匹配。

ARC系列与传统NLP或多模态benchmark最大的不同在于：它没有大规模训练集，每道题目都是从未见过的新任务，因此不存在通过「刷数据」获得高分的可能。

它要求AI像人类一样具备真正的推理和举一反三的能力。

Chollet曾多次公开表示，如果一个系统只能在见过的数据分布上表现良好，那它并不具备AGI所需的能力。

因此，ARC基准测试刚好直击大模型的「软肋」。

新纪录的刷新者，并非单一模型，而是一个名为Poetiq（GPT-5.2X-High）的系统。

Poetiq是一家专注于元系统（Meta-System）架构的AI公司。

其核心理念并不是训练一个更大的模型，而是通过软件层面的系统设计，自动构建「会调用模型的系统」。

Poetiq（GPT-5.2X-High）在ARC-AGI-2数据集上实现了75%准确率，每问题成本不到8美元，超越前SOTA 15个百分点。

在Poetiq（GPT-5.2X-High）系统出现之前，GPT-5.2(X-High)已经非常接近人类平均水平。

ARC-AGI-2榜单中，人类平均准确率约为60%，GPT-5.2X-High的成绩与之几乎持平，代表了当时AI在该基准上的最强推理能力。

但Poetiq的加入，使GPT-5.2(X-High)的得分从60%直接拉升到了75%，从勉强及格（人类平均水平）迈入了优等生的行列（显著超越人类平均水平）。

在同一榜单上，还能看到Gemini 3 Deep Think（Preview）的身影。

该模型主打「深度思考（Deep Think）」技术，在ARC-AGI-2上的成绩约为46%，明显落后于GPT-5.2系列，并且成本相对后者也略高。

Poetiq表示，整个过程没有对GPT-5.2进行任何训练或者特定优化。

这正是Poetiq元系统的初衷，旨在自动构建完整的系统，通过调用任何现有的前沿模型来解决特定任务。

图片

从15%的提升数据来看，Poetiq对于基础模型性能的提升幅度还是非常明显的。

它的存在证明了不需要堆算力，通过优秀的软件架构也能大幅提升AI性能。

从这个角度上，它也验证了接下来OpenAI的一个判断——当前大模型，正逐渐进入「能力过剩」阶段。

好文章，需要你的鼓励