谷歌发布Gemini 3 Flash:速度提升3倍
2025-12-18 11:52
278
谷歌发布Gemini 3 Flash已在Gemini应用、Search和AI Mode默认上线,并向开发者开放API。
2025年12月18日,美国加州山景城——谷歌通过官方博客与社交平台同步推出Gemini 3 Flash,并宣布已在Gemini应用、Google Search及AI Mode全线默认启用,同时向全球开发者开放API与Vertex AI端点,定位“低成本、低延迟、高智能”的生成式AI推理。
自去年2月Gemini 1.0发布,谷歌几乎按季度迭代:今年2月亮相的Gemini 2.5 Pro将GPQA Diamond推至约85%,但延迟与成本仍是企业规模化痛点;12个月后,Gemini 3 Flash以3倍于2.5 Pro的推理速度,把GPQA Diamond刷新到90.4%,SWE-bench Verified升至78%,在代码补全、工具调用与多步推理场景树立新的性价比标杆。
新模型提供“Fast”与“Thinking”双模式:Fast模式毫秒级响应,适合实时搜索与对话摘要;Thinking模式允许多轮内部推演,应对复杂数学证明与长链逻辑。两者共享同一参数底座,用户通过API字段即可切换,无需额外部署。
“Gemini 3 Flash is our latest model with frontier intelligence built for lightning speed, and pushing the Pareto Frontier of performance and efficiency”,谷歌兼Alphabet首席执行官Sundar Pichai在官方推文中写道,“从消费者搜索到企业级代码生成,新模型在同等成本下带来3倍速度提升,意味着开发者可在不增加预算的前提下,把AI嵌入更多高频场景。”
落地方面,Gemini应用已于12月18日凌晨静默升级,全球180余个国家与地区的免费层用户无需手动切换即可体验3倍速回答;Google搜索的AI Overview及AI Mode同日完成模型替换,英文查询平均响应由约1.1秒降至0.35秒;Vertex AI同步上线gemini-3-flash端点,支持文本、代码、函数调用,定价维持上一代输入0.15美元/百万token、输出0.60美元/百万token,首批配额已向付费客户自动开放。
行业视角下,速度-成本曲线继续下探被视为大模型规模商用的关键节点。Gartner 11月报告显示,全球42%的企业已将“推理延迟<500毫秒”列为生成式AI上线硬指标;谷歌把90%基准分模型压缩至毫秒级,使电商实时客服、金融量化分析、工业机器人控制等延迟敏感场景有望率先扩大部署。部分早期企业透露,在同等并发下,3 Flash的P99延迟较2.5 Pro降低68%,月度调用成本下降约25%。
谷歌透露,未来两周将在欧洲、亚太部分区域完成合规评估并逐步扩容;多模态版本与更大参数规模的Gemini 3 Pro计划于2026年上半年发布,具体时间表与性能指标尚未披露。
21
好文章,需要你的鼓励
