谷歌 Gemini 3.1 Pro 屠榜发布：推理性能翻倍，清华姚顺宇参与研发

2026-02-22 21:10

2月20日，谷歌DeepMind正式推出旗舰模型Gemini 3.1 Pro，由清华校友姚顺宇参与研发。该模型在抽象推理、编程、智能体等全领域刷新SOTA（State of the Art），尤其在公认最难的ARC-AGI-2测试中斩获77.1%的高分，性能较上一代Gemini 3 Pro飙升2倍以上，直接超越Claude Opus 4.6与GPT-5.2，重塑AI行业竞争格局。

一、核心升级：全维度性能碾压，幻觉率大幅下降

1.抽象推理能力封神

ARC-AGI系列测试表现炸裂：ARC-AGI-1测试得分98%，ARC-AGI-2（抽象推理难题）以77.1%的成绩断层领先，远超Claude Opus 4.6（68.8%）和GPT-5.2（52.9%）；

综合学术推理亮眼：Humanity's Last Exam（无工具）得分44.4%，将GPT-5.2（34.5%）和Claude Opus 4.6（40.0%）甩在身后；

科学知识储备深厚：GPQA Diamond测试得分94.3%，略超GPT-5.2（92.4%）与Claude Opus 4.6（91.3%）。

2.编程与智能体能力跨越式进化

编码竞赛断层领先：LiveCodeBench Pro（Codeforces/ICPC竞赛题）Elo积分达2887，远超GPT-5.2（2393），展现极强的竞技编程能力；

工程任务表现顶尖：SWE-Bench Verified（软件工程任务）得分80.6%，接近Claude Opus 4.6（80.8%）；Terminal-Bench 2.0（终端编程）得分68.5%，压制GPT-5.3-Codex（64.7%）；

长周期任务统治力：APEX-Agents（专业长任务）得分33.5%，高于Claude Opus 4.6（29.8%）和GPT-5.2（23.0%），智能体规划与执行能力显著提升。

3.长上下文与多模态能力全面强化

超长上下文支持：独家适配100万Token上下文窗口，MRCR v2测试中128K上下文得分84.9%，1M上下文得分26.3%，而GPT-5.2与Claude Opus 4.6均不支持1M级别测试；

多模态与多语言亮眼：MMMLU（多语言问答）得分92.6%，MMMU Pro（多模态理解）得分80.5%，均领先同类模型；

幻觉率大幅降低：AA-Omniscience幻觉率评估中表现优异，较Gemini 3 Pro显著下降，错误回答比例大幅减少。

二、落地能力：零代码生成高复杂度应用

Gemini 3.1 Pro不仅跑分强势，实际落地生产力同样惊艳，支持零样本代码生成，快速实现复杂应用开发：

SVG动画与可视化：3分钟生成11秒“鬼魂猎人闹鬼房子”循环动画，5分钟生成“鹈鹕骑车”精准SVG，还能制作“种子发芽长成大树”交互式动画，文件体积小且支持无限放大；

3D与空间推理：生成3D像素版宝可梦，3D空间推理能力达SOTA水平，远超上一代Gemini 3 Pro；

复杂系统构建：可快速搭建实时航天数据看板（接入国际空间站遥测数据）、3D椋鸟群舞交互系统（支持手势控制+生成式配乐），还能为《呼啸山庄》设计贴合主题的现代风格个人主页；

场景化解决方案：谷歌UX工程师用其模拟城市规划，生成全新城市鸟瞰拓扑，展现极强的场景适配与创意落地能力。

三、行业影响与开放渠道

1.重塑AI竞争格局

Gemini 3.1 Pro的发布让硅谷AI战局聚焦谷歌DeepMind与Anthropic的“硬碰硬”，OpenAI的GPT系列逐渐失去主战场主动权。该模型以“全维度碾压+成本优势”（API调用成本仅为Claude Opus 4.6的一半），成为企业与开发者的首选模型。

2.开放与使用渠道

现已正式上线Gemini与NotebookLM平台；

开发者可通过Google AI Studio、Antigravity、Android Studio抢先体验；

支持全模态输入（文本、图像、音频、视频），输出支持64K Token，适配多场景开发需求。

谷歌DeepMind通过Gemini 3.1 Pro的“肌肉秀”式迭代，展现了硬件算力与算法深度耦合的研发优势。随着更强模型的持续迭代，AI行业正加速向“全场景高能力+低幻觉+低成本”方向演进，为AGI落地奠定关键基础。

好文章，需要你的鼓励