Google 发布 Gemini 3 模型,性能全面超越竞品

2025-11-19 14:40
阅读49

Google刚刚发布了Gemini 3大模型,这次发布的动静不小。从各项测试数据来看,新模型在多模态理解、推理能力和智能体应用方面都有明显提升,在关键指标上已经超过了Anthropic的Claude Sonnet 4.5和OpenAI的GPT-5.1。

image.png

这次Google把Gemini 3直接集成到了自家全线产品里,包括搜索、Gemini app以及新推出的开发平台Google Antigravity,看得出来他们这次是想玩真的。

Gemini 3 Pro性能超GPT-5.1,Claude Sonnet 4.5

Google这次推出的Gemini 3包含两个版本:Gemini 3 Pro预览版和Gemini 3 Deep Think模式。

Gemini 3 Pro会直接整合进Google的产品体系里,你日常用它来学习、开发或者做各种规划都没问题。而Deep Think模式就更厉害了,这是个增强版的推理模式,会把Gemini 3的能力再往上推一个档次。不过这个功能暂时只开放给安全测试人员试用,要等几周后才会向Google AI Ultra的付费用户开放。

image.png

从Google公布的基准测试结果看,Gemini 3 Pro的表现确实不错。它在LMArena排行榜上拿到了1501分的Elo评分,直接登顶第一。在推理能力测试中,它在"人类终极考试"里无工具情况下得分率达到37.5%,GPQA Diamond基准测试的准确率更是高达91.9%。数学能力方面也有突破,在MathArena Apex测试中以23.4%的成绩达到了业界最先进水平。

除了文本处理,Gemini 3 Pro在视觉理解上也表现突出。MMMU-Pro测试拿到81%,Video-MMMU达到87.6%。特别值得一提的是,它在SimpleQA Verified基准测试中获得72.1%的得分,这说明它在事实准确性方面做得相当扎实,处理科学和数学这类复杂问题时可靠性很高。

Gemini 3 Deep Think的表现更进一步。在"人类最终考试"中无工具达到41.0%,GPQA Diamond测试里拿到93.8%,还在ARC-AGI-2基准测试中取得45.1%的成绩(这个是开启代码执行的情况下)。这三项测试里,Deep Think都超过了Claude Sonnet 4.5和GPT-5.1。

image.png

发布全新智能体开发平台Google Antigravity

Google DeepMind团队说,Gemini 3是他们目前做出来最好的氛围编程和智能体编程模型。

数据也能证明这点。它在WebDev Arena排行榜上拿到1487 ELO,排在最前面。Terminal-Bench 2.0测试(这个测试专门看模型能不能通过终端来操作计算机)中得分54.2%,在衡量编程智能体能力的SWE-bench Verified测试里,更是拿到76.2%的高分,远远甩开了上一代的2.5 Pro。

这次发布会上,Google还推出了一个新东西——Google Antigravity智能体开发平台。这个平台让开发者能够用更高维度的方式来开发,以任务为导向去做事情。

Google Antigravity充分利用了Gemini 3的高级推理、工具使用和智能编码能力,把AI从开发工具变成了一个真正能干活的合作伙伴。虽然核心还是大家熟悉的AI集成开发环境,但智能体现在有了独立的界面,可以直接访问编辑器、终端和浏览器。它能替你自主规划和执行复杂的端到端软件任务,过程中还会自己验证代码。

除了Gemini 3 Pro,Google Antigravity还整合了最新的Gemini 2.5 Computer Use模型(用于浏览器控制)和图像编辑模型Nano Banana。

现场演示环节很有意思,展示了Google Antigravity用Gemini 3驱动一个航班追踪应用的完整流程。智能体自己规划、写代码,然后通过浏览器来验证效果,整个过程都是自主完成的。

现在你已经可以通过Google AI Studio、Vertex AI、Gemini CLI以及Google Antigravity来使用Gemini 3了。另外,Cursor、GitHub、JetBrains、Manus、Replit这些第三方平台也都已经接入。

Google CEO Sundar Pichai透露,自从两年前推出Gemini以来,现在每个月有20亿用户在使用AI概览功能,Gemini app的月活用户突破了6.5亿,超过70%的Cloud客户在用他们的AI,还有1300万开发者在用他们的生成模型做开发。

有意思的是,OpenAI的CEO Sam Altman和xAI创始人Elon Musk都在X上点赞了这次发布。Altman评价说"Gemini 3看起来很不错",Musk转发了Google DeepMind CEO的推文回复"Nice work"。看来即使是竞争对手,对技术进步也还是会表示认可的。

从这次发布来看,Google在大模型领域确实拿出了点真功夫。Gemini 3不光性能指标好看,更重要的是已经深度融入到Google的产品生态里,开发者也能通过多个平台直接用上。AI竞争已经进入了新阶段,接下来各家会怎么应对,值得继续观察。

0
好文章,需要你的鼓励