谷歌Gemini 3 Deep Think重大升级创ARC-AGI-2新纪录!!
2026-02-13 11:01
78
北京时间周五凌晨,谷歌放了个大招——Gemini 3 Deep Think迎来重磅升级。这次更新不是小打小闹,而是真正把AI推理能力拉到了一个新高度。说实话,看到这些测试成绩,你可能会开始怀疑AI是不是真的要成精了。

各项基准测试全面领先
去年9月加入Google DeepMind的清华物理系传奇人物姚顺宇也参与了这次Deep Think的开发。去年谷歌就展示过专门开发的Deep Think版本在数学和编程世界锦标赛上拿金牌,最近又让智能体能够进行研究级别的数学探索了。
这次更新后的Deep Think在各种严苛的学术基准测试中又刷新了记录:
在"人类的最后考试"(专门用来测试前沿模型极限的)中拿到了48.4%的新纪录,而且是不借助任何工具的情况下。
ARC-AGI-2测试中达到了前所未有的84.6%,这个成绩已经通过ARC Prize基金会验证了。
Codeforces上的Elo分数达到惊人的3455分,这可是竞技编程挑战平台。
在2025年国际数学奥林匹克竞赛中取得金牌级别成绩。
更让人震惊的是成本控制。新版Gemini 3 Deep Think在ARC-AGI-1上跑出96.0%的成绩,每个任务只花7.17美元;ARC-AGI-2达到84.6%,每任务成本13.62美元。
对比一下就知道有多厉害了——大约14个月前,OpenAI的o3-preview"高计算"版本在ARC-AGI-1测试中达到约88%的分数,但每个任务成本要2000到3000美元。Gemini 3 Deep Think的成本直接降低了280到420倍,这效率简直了。
不只是数学和编程
Deep Think现在在化学、物理等科学领域也表现惊艳。更新后的模式在2025年国际物理奥林匹克和化学奥林匹克竞赛的笔试部分都拿到了金牌级别成绩。在高等理论物理方面也展现了实力,CMT-Benchmark测试中拿到50.5%的分数。

再说说那个Codeforces上的3455分——这意味着Gemini 3 Deep Think已经相当于世界排名第八的顶尖竞技程序员水平了。之前的最佳成绩是一年多以前OpenAI o3的2727分,那时候排名第175。
换句话说,地球上只有7个人能在编程比赛中打败Gemini 3 Deep Think。这对AI和整个科技领域来说,是以往想都不敢想的成果。
从理论到实际应用
谷歌在开发Deep Think时跟科学家和研究人员密切合作,把深厚的科学知识和日常工程实践结合起来,不光停留在抽象理论层面,而是真正推动实际应用。
比如,更新后的Deep Think可以把你的草图转化为可3D打印的实体模型。它会分析图纸,对复杂形状建模,然后生成用于3D打印的文件。
谷歌还展示了一些早期测试用户的使用成果,挺有意思的:
罗格斯大学的数学家Lisa Carbone研究高能物理学需要的数学结构,想弥合爱因斯坦引力理论和量子力学之间的鸿沟。由于这个领域缺乏大量训练数据,她让Deep Think审阅了一篇高度专业的数学论文。结果Deep Think成功找出了一个细微的逻辑缺陷,而这个问题之前在人工同行评审中都没被发现。
在杜克大学,Haozhe"Harry"Wang带领的实验室用Deep Think优化复杂晶体生长的制备方法,想发现新的半导体材料。Deep Think成功设计了一种工艺,能生长厚度超过100微米的薄膜,达到了以往方法很难实现的精确目标。
谁能用上?
全新Deep Think现在已经在Gemini应用中上线了,目前Google AI Ultra订阅用户可以使用。更重要的是,谷歌这次首次通过Gemini API向部分研究人员、工程师和企业开放了Deep Think的使用权限。
随着更多人开始使用,说不定我们不久之后就能看到基于Gemini 3 Deep Think实现的更多科研突破。毕竟这东西在数学、物理、化学、编程等领域都已经达到了顶尖水平,潜力确实大得吓人。AI发展到这个地步,你说它是"硅基博学家"还真不算夸张。
0
好文章,需要你的鼓励
