Google 发布 Gemini 3 模型，性能全面超越竞品

2025-11-19 14:40

100

Google刚刚发布了Gemini 3大模型，这次发布的动静不小。从各项测试数据来看，新模型在多模态理解、推理能力和智能体应用方面都有明显提升，在关键指标上已经超过了Anthropic的Claude Sonnet 4.5和OpenAI的GPT-5.1。

这次Google把Gemini 3直接集成到了自家全线产品里，包括搜索、Gemini app以及新推出的开发平台Google Antigravity，看得出来他们这次是想玩真的。

Gemini 3 Pro性能超GPT-5.1，Claude Sonnet 4.5

Google这次推出的Gemini 3包含两个版本:Gemini 3 Pro预览版和Gemini 3 Deep Think模式。

Gemini 3 Pro会直接整合进Google的产品体系里，你日常用它来学习、开发或者做各种规划都没问题。而Deep Think模式就更厉害了，这是个增强版的推理模式，会把Gemini 3的能力再往上推一个档次。不过这个功能暂时只开放给安全测试人员试用，要等几周后才会向Google AI Ultra的付费用户开放。

从Google公布的基准测试结果看，Gemini 3 Pro的表现确实不错。它在LMArena排行榜上拿到了1501分的Elo评分，直接登顶第一。在推理能力测试中，它在"人类终极考试"里无工具情况下得分率达到37.5%，GPQA Diamond基准测试的准确率更是高达91.9%。数学能力方面也有突破，在MathArena Apex测试中以23.4%的成绩达到了业界最先进水平。

除了文本处理，Gemini 3 Pro在视觉理解上也表现突出。MMMU-Pro测试拿到81%，Video-MMMU达到87.6%。特别值得一提的是，它在SimpleQA Verified基准测试中获得72.1%的得分，这说明它在事实准确性方面做得相当扎实，处理科学和数学这类复杂问题时可靠性很高。

Gemini 3 Deep Think的表现更进一步。在"人类最终考试"中无工具达到41.0%，GPQA Diamond测试里拿到93.8%，还在ARC-AGI-2基准测试中取得45.1%的成绩(这个是开启代码执行的情况下)。这三项测试里，Deep Think都超过了Claude Sonnet 4.5和GPT-5.1。

发布全新智能体开发平台Google Antigravity

Google DeepMind团队说，Gemini 3是他们目前做出来最好的氛围编程和智能体编程模型。

数据也能证明这点。它在WebDev Arena排行榜上拿到1487 ELO，排在最前面。Terminal-Bench 2.0测试(这个测试专门看模型能不能通过终端来操作计算机)中得分54.2%，在衡量编程智能体能力的SWE-bench Verified测试里，更是拿到76.2%的高分，远远甩开了上一代的2.5 Pro。

这次发布会上，Google还推出了一个新东西——Google Antigravity智能体开发平台。这个平台让开发者能够用更高维度的方式来开发，以任务为导向去做事情。

Google Antigravity充分利用了Gemini 3的高级推理、工具使用和智能编码能力，把AI从开发工具变成了一个真正能干活的合作伙伴。虽然核心还是大家熟悉的AI集成开发环境，但智能体现在有了独立的界面，可以直接访问编辑器、终端和浏览器。它能替你自主规划和执行复杂的端到端软件任务，过程中还会自己验证代码。

除了Gemini 3 Pro，Google Antigravity还整合了最新的Gemini 2.5 Computer Use模型(用于浏览器控制)和图像编辑模型Nano Banana。

现场演示环节很有意思，展示了Google Antigravity用Gemini 3驱动一个航班追踪应用的完整流程。智能体自己规划、写代码，然后通过浏览器来验证效果，整个过程都是自主完成的。

现在你已经可以通过Google AI Studio、Vertex AI、Gemini CLI以及Google Antigravity来使用Gemini 3了。另外，Cursor、GitHub、JetBrains、Manus、Replit这些第三方平台也都已经接入。

Google CEO Sundar Pichai透露，自从两年前推出Gemini以来，现在每个月有20亿用户在使用AI概览功能，Gemini app的月活用户突破了6.5亿，超过70%的Cloud客户在用他们的AI，还有1300万开发者在用他们的生成模型做开发。

有意思的是，OpenAI的CEO Sam Altman和xAI创始人Elon Musk都在X上点赞了这次发布。Altman评价说"Gemini 3看起来很不错"，Musk转发了Google DeepMind CEO的推文回复"Nice work"。看来即使是竞争对手，对技术进步也还是会表示认可的。

从这次发布来看，Google在大模型领域确实拿出了点真功夫。Gemini 3不光性能指标好看，更重要的是已经深度融入到Google的产品生态里，开发者也能通过多个平台直接用上。AI竞争已经进入了新阶段，接下来各家会怎么应对，值得继续观察。

好文章，需要你的鼓励