谷歌发布Gemini 3 Flash：速度提升3倍

2025-12-18 11:52

278

谷歌发布Gemini 3 Flash已在Gemini应用、Search和AI Mode默认上线，并向开发者开放API。

2025年12月18日，美国加州山景城——谷歌通过官方博客与社交平台同步推出Gemini 3 Flash，并宣布已在Gemini应用、Google Search及AI Mode全线默认启用，同时向全球开发者开放API与Vertex AI端点，定位“低成本、低延迟、高智能”的生成式AI推理。

自去年2月Gemini 1.0发布，谷歌几乎按季度迭代：今年2月亮相的Gemini 2.5 Pro将GPQA Diamond推至约85%，但延迟与成本仍是企业规模化痛点；12个月后，Gemini 3 Flash以3倍于2.5 Pro的推理速度，把GPQA Diamond刷新到90.4%，SWE-bench Verified升至78%，在代码补全、工具调用与多步推理场景树立新的性价比标杆。

新模型提供“Fast”与“Thinking”双模式：Fast模式毫秒级响应，适合实时搜索与对话摘要；Thinking模式允许多轮内部推演，应对复杂数学证明与长链逻辑。两者共享同一参数底座，用户通过API字段即可切换，无需额外部署。

“Gemini 3 Flash is our latest model with frontier intelligence built for lightning speed, and pushing the Pareto Frontier of performance and efficiency”，谷歌兼Alphabet首席执行官Sundar Pichai在官方推文中写道，“从消费者搜索到企业级代码生成，新模型在同等成本下带来3倍速度提升，意味着开发者可在不增加预算的前提下，把AI嵌入更多高频场景。”

落地方面，Gemini应用已于12月18日凌晨静默升级，全球180余个国家与地区的免费层用户无需手动切换即可体验3倍速回答；Google搜索的AI Overview及AI Mode同日完成模型替换，英文查询平均响应由约1.1秒降至0.35秒；Vertex AI同步上线gemini-3-flash端点，支持文本、代码、函数调用，定价维持上一代输入0.15美元/百万token、输出0.60美元/百万token，首批配额已向付费客户自动开放。

行业视角下，速度-成本曲线继续下探被视为大模型规模商用的关键节点。Gartner 11月报告显示，全球42%的企业已将“推理延迟<500毫秒”列为生成式AI上线硬指标；谷歌把90%基准分模型压缩至毫秒级，使电商实时客服、金融量化分析、工业机器人控制等延迟敏感场景有望率先扩大部署。部分早期企业透露，在同等并发下，3 Flash的P99延迟较2.5 Pro降低68%，月度调用成本下降约25%。

谷歌透露，未来两周将在欧洲、亚太部分区域完成合规评估并逐步扩容；多模态版本与更大参数规模的Gemini 3 Pro计划于2026年上半年发布，具体时间表与性能指标尚未披露。

好文章，需要你的鼓励