Google 正式发布 Gemini 3.1 Pro 预览版，多项基准测试超越竞争对手

2026-02-20 12:32

2月19日消息， Google 今日正式确认推出 Gemini 3.1 Pro 预览版。这款升级后的人工智能模型聚焦于复杂任务处理，在推理能力、代理式工作流及多模态理解三大方向实现全面提升，被多家科技媒体视为 Google 在 AI 竞争中重新占据优势的关键一步。

基准测试表现亮眼，抽象推理大幅领先

在备受关注的 ARC-AGI-2 基准测试中，Gemini 3.1 Pro 以 77.1% 的得分一骑绝尘，不仅较上代 Gemini 3 Pro 的 31.1% 提升超过一倍，更明显领先于 Anthropic 的 Claude Opus 4.6（68.8%）和 OpenAI 的 GPT-5.2（52.9%）。ARC-AGI-2 专门考察模型解决全新逻辑模式的能力，被业界视为衡量通用人工智能水平的重要指标。

在学术综合推理测试 Humanity's Last Exam（HLE）中，该模型在无工具辅助条件下得分 44.4%，同样高于 Gemini 3 Pro（37.5%）、Claude Opus 4.6（40.0%）及 GPT-5.2（34.5%）。

软件工程代理编码能力方面，Gemini 3.1 Pro 在 SWE-Bench Verified 上得分 80.6%，与 Claude Opus 4.6 的 80.8% 基本持平，超过 GPT-5.2 的 80.0%。此外，该模型在 GPQA Diamond 测试中得分高达 94.3%，在多步工具工作流测试 MCP Atlas 上亦以 69.2% 领跑同类产品。

即日起向开发者开放，支持百万级上下文窗口

Gemini 3.1 Pro 预览版已开始在 Gemini API、Vertex AI、Gemini 应用及 NotebookLM 等平台陆续上线，开发者可通过 Google AI Studio 即刻试用。该模型支持高达 100 万 token 的超长上下文窗口，定价为输入 $2 / 输出 $12（每百万 token），性价比相较 Claude Opus 4.6 更具优势。

分析：Google 重新夺回 AI 竞赛主动权

多位行业分析人士指出，此次发布标志着 Google 在新一轮 AI 能力竞赛中重夺主动。强化学习技术的深度应用被认为是本次性能跃升的核心驱动力，尤其在抽象推理和前端开发领域的进步尤为突出。不过，OpenAI 的 GPT-5.3-Codex 在部分编码专项基准上仍保持一定优势，两家公司的角力仍在持续。

好文章，需要你的鼓励