CHATGPT最新版本是多少?GPT-5.2 正式发布,效率翻倍!

2025-12-15 13:28
207

前几天一直在传言OpenAI将在12.9发布GPT5.2。围绕它的各种讨论、暗示、泄露层出不穷,还以为GPT5.2难产了呢。

伴随着Google Gemini 3的发布,OpenAI CEO奥特曼上周罕见拉响了「Code Red」红色警报,并宣布所有资源回流ChatGPT主线,其他业务一律靠边站。这是OpenAI成立以来第一次进入「红色警报」状态,也是它第一次如此明确地承认:竞争压力已经大到必须全力应对。

12月12日凌晨2点,OpenAI官推官宣,GPT-5.2向所有人推出:而就在刚刚,OpenAI发布了GPT-5.2模型,打出了一记力量感十足的重拳。

image.png

GPT-5.2将向ChatGPT付费用户开放,并通过API提供给开发者,分为三个版本:

Instant:速度优化版,适用于信息查询、写作和翻译等常规任务;

Thinking:擅长处理复杂结构化任务,如编程、分析长文档、数学和规划;

Pro:高端版,专注于在高难度任务中提供极致的准确性和可靠性。

不聊天,真干活,GPT-5.2闯进打工人职场本以为OpenAI会专注提升ChatGPT的个性化和消费者体验,结果GPT-5.2的发布方向依旧是走职场实用主义的路数。

用OpenAI应用CEO Fidji Simo的话来说:「我们设计GPT-5.2是为了给用户创造更多经济价值。」

什么叫经济价值?

就是让AI真的能干活,做表格、写PPT、敲代码、看图、读长文、调用工具、搞定复杂项目,这些都是GPT-5.2的拿手好戏。数据也挺唬人。

平均每个ChatGPT企业版用户说,AI每天能给他们省40到60分钟,重度用户更狠,每周能省10小时以上。

image.png

GPT-5.2 Thinking是这次发布的重头戏。在评估44个职业知识型任务的GDPval测试中,它成为首个在总体表现上达到或超过人类专家水平的模型。

具体来说,在与行业专家的对比中,GPT-5.2 Thinking在70.9%的任务中胜出或持平,由人类专家亲自评判。

image.png

这些任务可不是随便出的题,涵盖了美国GDP排名前9个行业,包括销售演示文稿、会计报表、急诊排班计划、制造业图纸、短视频制作等等,都是真实工作场景里的硬活。编程方面的提升更明显。SWE-Bench Pro是个相当严格的测试,评估模型在真实世界软件工程中的能力,涉及四种编程语言,比只测Python的版本难多了。

GPT-5.2 Thinking在这个测试里拿到了55.6%的成绩,创下业界新高。更夸张的是在SWE-bench Verified里直接干到80%,成为目前最高记录。这意味着GPT-5.2 Thinking能更可靠地调试生产环境中的代码、实现功能需求、重构大型代码库,端到端的修复工作做得更高效,减少人工介入。前端开发也有明显提升。

早期测试者说,它在处理复杂或非常规的前端UI任务时表现更出色,特别是涉及3D元素的场景,妥妥的全栈工程师助手。

OpenAI还放出了几个根据单一提示生成的示例:海浪模拟器、节日贺卡生成器、打字雨游戏。就一个提示词,整个单页应用就出来了,可调节的参数、逼真的动画效果、平静的UI风格,全都有。幻觉率降低30%,长文本能力接近完美事实准确性这块,GPT-5.2 Thinking相较于GPT-5.1 Thinking的「幻觉率」更低。在一组匿名化的ChatGPT查询中,出现错误的回答减少了约30%。

对于专业人士来说,这意味着在研究、写作、分析与决策支持等任务中,出错率更低,用起来更放心。不过OpenAI也提醒,就像所有模型一样,GPT-5.2并不完美,关键性任务还是得自己核查。长文本推理能力也树立了新标杆。在OpenAI MRCRv2基准测试中,GPT-5.2表现领先。这个测试评估的是模型能不能正确整合分布在长文档中的信息,对于深度文档分析这类涉及数十万token的跨文档信息整合任务来说,GPT-5.2的准确率远超GPT-5.1。尤其在MRCR的4针测试(不同于「大海捞针」,而是要求模型在海量文本里,区分并找出多个一模一样的「针」中的特定一个)中,最多256k token的上下文,GPT-5.2是首个接近100%准确率的模型。

这意味着专业用户可以用GPT-5.2高效处理超长文档,报告、合同、学术论文、访谈记录、多文件项目,它都能在处理上百页内容时保持逻辑一致和信息准确。

视觉理解方面,GPT-5.2 Thinking是目前OpenAI最强的视觉模型。在图表推理和软件界面理解方面,错误率下降了约一半。

对日常专业使用来说,这意味着模型能更准确地解读数据仪表盘、产品截图、技术图纸、可视化报告,适用于金融、运营、工程、设计、客服等以视觉为核心的工作场景。

0
好文章,需要你的鼓励