谷歌 Gemini 3.1 Pro 屠榜发布:推理性能翻倍,清华姚顺宇参与研发

2026-02-22 21:10
48
2月20日,谷歌DeepMind正式推出旗舰模型Gemini 3.1 Pro,由清华校友姚顺宇参与研发。该模型在抽象推理、编程、智能体等全领域刷新SOTA(State of the Art),尤其在公认最难的ARC-AGI-2测试中斩获77.1%的高分,性能较上一代Gemini 3 Pro飙升2倍以上,直接超越Claude Opus 4.6与GPT-5.2,重塑AI行业竞争格局。
一、核心升级:全维度性能碾压,幻觉率大幅下降
1.抽象推理能力封神
ARC-AGI系列测试表现炸裂:ARC-AGI-1测试得分98%,ARC-AGI-2(抽象推理难题)以77.1%的成绩断层领先,远超Claude Opus 4.6(68.8%)和GPT-5.2(52.9%);
综合学术推理亮眼:Humanity's Last Exam(无工具)得分44.4%,将GPT-5.2(34.5%)和Claude Opus 4.6(40.0%)甩在身后;
科学知识储备深厚:GPQA Diamond测试得分94.3%,略超GPT-5.2(92.4%)与Claude Opus 4.6(91.3%)。
2.编程与智能体能力跨越式进化
编码竞赛断层领先:LiveCodeBench Pro(Codeforces/ICPC竞赛题)Elo积分达2887,远超GPT-5.2(2393),展现极强的竞技编程能力;
工程任务表现顶尖:SWE-Bench Verified(软件工程任务)得分80.6%,接近Claude Opus 4.6(80.8%);Terminal-Bench 2.0(终端编程)得分68.5%,压制GPT-5.3-Codex(64.7%);
长周期任务统治力:APEX-Agents(专业长任务)得分33.5%,高于Claude Opus 4.6(29.8%)和GPT-5.2(23.0%),智能体规划与执行能力显著提升。
3.长上下文与多模态能力全面强化
超长上下文支持:独家适配100万Token上下文窗口,MRCR v2测试中128K上下文得分84.9%,1M上下文得分26.3%,而GPT-5.2与Claude Opus 4.6均不支持1M级别测试;
多模态与多语言亮眼:MMMLU(多语言问答)得分92.6%,MMMU Pro(多模态理解)得分80.5%,均领先同类模型;
幻觉率大幅降低:AA-Omniscience幻觉率评估中表现优异,较Gemini 3 Pro显著下降,错误回答比例大幅减少。
二、落地能力:零代码生成高复杂度应用
Gemini 3.1 Pro不仅跑分强势,实际落地生产力同样惊艳,支持零样本代码生成,快速实现复杂应用开发:
SVG动画与可视化:3分钟生成11秒“鬼魂猎人闹鬼房子”循环动画,5分钟生成“鹈鹕骑车”精准SVG,还能制作“种子发芽长成大树”交互式动画,文件体积小且支持无限放大;
3D与空间推理:生成3D像素版宝可梦,3D空间推理能力达SOTA水平,远超上一代Gemini 3 Pro;
复杂系统构建:可快速搭建实时航天数据看板(接入国际空间站遥测数据)、3D椋鸟群舞交互系统(支持手势控制+生成式配乐),还能为《呼啸山庄》设计贴合主题的现代风格个人主页;
场景化解决方案:谷歌UX工程师用其模拟城市规划,生成全新城市鸟瞰拓扑,展现极强的场景适配与创意落地能力。
三、行业影响与开放渠道
1.重塑AI竞争格局
Gemini 3.1 Pro的发布让硅谷AI战局聚焦谷歌DeepMind与Anthropic的“硬碰硬”,OpenAI的GPT系列逐渐失去主战场主动权。该模型以“全维度碾压+成本优势”(API调用成本仅为Claude Opus 4.6的一半),成为企业与开发者的首选模型。
2.开放与使用渠道
现已正式上线Gemini与NotebookLM平台;
开发者可通过Google AI Studio、Antigravity、Android Studio抢先体验;
支持全模态输入(文本、图像、音频、视频),输出支持64K Token,适配多场景开发需求。
谷歌DeepMind通过Gemini 3.1 Pro的“肌肉秀”式迭代,展现了硬件算力与算法深度耦合的研发优势。随着更强模型的持续迭代,AI行业正加速向“全场景高能力+低幻觉+低成本”方向演进,为AGI落地奠定关键基础。
0
好文章,需要你的鼓励