Google 正式发布 Gemini 3.1 Pro 预览版,多项基准测试超越竞争对手

2026-02-20 12:32
38
2月19日消息, Google 今日正式确认推出 Gemini 3.1 Pro 预览版。这款升级后的人工智能模型聚焦于复杂任务处理,在推理能力、代理式工作流及多模态理解三大方向实现全面提升,被多家科技媒体视为 Google 在 AI 竞争中重新占据优势的关键一步。


基准测试表现亮眼,抽象推理大幅领先

在备受关注的 ARC-AGI-2 基准测试中,Gemini 3.1 Pro 以 77.1% 的得分一骑绝尘,不仅较上代 Gemini 3 Pro 的 31.1% 提升超过一倍,更明显领先于 Anthropic 的 Claude Opus 4.6(68.8%)和 OpenAI 的 GPT-5.2(52.9%)。ARC-AGI-2 专门考察模型解决全新逻辑模式的能力,被业界视为衡量通用人工智能水平的重要指标。
在学术综合推理测试 Humanity's Last Exam(HLE)中,该模型在无工具辅助条件下得分 44.4%,同样高于 Gemini 3 Pro(37.5%)、Claude Opus 4.6(40.0%)及 GPT-5.2(34.5%)。
软件工程代理编码能力方面,Gemini 3.1 Pro 在 SWE-Bench Verified 上得分 80.6%,与 Claude Opus 4.6 的 80.8% 基本持平,超过 GPT-5.2 的 80.0%。此外,该模型在 GPQA Diamond 测试中得分高达 94.3%,在多步工具工作流测试 MCP Atlas 上亦以 69.2% 领跑同类产品。

即日起向开发者开放,支持百万级上下文窗口

Gemini 3.1 Pro 预览版已开始在 Gemini API、Vertex AI、Gemini 应用及 NotebookLM 等平台陆续上线,开发者可通过 Google AI Studio 即刻试用。该模型支持高达 100 万 token 的超长上下文窗口,定价为输入 $2 / 输出 $12(每百万 token),性价比相较 Claude Opus 4.6 更具优势。

分析:Google 重新夺回 AI 竞赛主动权

多位行业分析人士指出,此次发布标志着 Google 在新一轮 AI 能力竞赛中重夺主动。强化学习技术的深度应用被认为是本次性能跃升的核心驱动力,尤其在抽象推理和前端开发领域的进步尤为突出。不过,OpenAI 的 GPT-5.3-Codex 在部分编码专项基准上仍保持一定优势,两家公司的角力仍在持续。
0
好文章,需要你的鼓励