谷歌在Gemini 2.5 Flash中引入AI推理控制

谷歌已经为其引入了人工智能推理控制机制双子星座2.5 Flash模型,允许开发人员限制系统在解决问题上花费的处理能力。
这一“思考预算”功能于4月17日发布,回应了一个日益增长的行业挑战:先进的人工智能模型经常过度分析直截了当的查询,消耗不必要的计算资源,并推高运营和环境成本。
虽然不是革命性的,但这一发展代表了解决效率问题的实际步骤,随着推理能力成为商业人工智能软件的标准,效率问题已经出现。
新机制允许在生成响应之前精确校准处理资源,潜在地改变组织如何管理人工智能部署的财务和环境影响?
“这个模型考虑得太多了,”Gemini的产品管理总监Tulsee Doshi承认道。"对于简单的提示,模型考虑的比需要的多."
这一承认揭示了高级推理模型面临的挑战——相当于用工业机械敲开一个核桃。
向推理能力的转变产生了意想不到的后果。传统的大型语言模型主要匹配来自训练数据的模式,而新的迭代试图一步一步地从逻辑上解决问题。虽然这种方法对于复杂的任务会产生更好的结果,但是在处理简单的查询时会导致效率显著降低。
平衡成本和性能
未经检查的人工智能推理的财务影响是巨大的。根据Google的技术文档,当完全推理被激活时,生成输出的成本大约是标准处理的六倍。成本乘数为微调控制创造了强大的激励。
研究推理模型的工程师内森·哈比卜(Nathan Habib)将这个问题描述为整个行业的通病。“为了展示更聪明的人工智能,公司正在寻求推理模型,如锤子,即使在看不到钉子的地方,”他向解释说麻省理工科技评论.
浪费不仅仅是理论上的。哈比卜展示了一个领先的推理模型在试图解决一个有机化学问题时,如何陷入递归循环,重复“等等,但是……”数百次——本质上是经历计算崩溃和消耗处理资源。
在DeepMind评估Gemini模型的Kate Olszewska证实,谷歌的系统有时会遇到类似的问题,陷入消耗计算能力而没有提高响应质量的循环中。
粒度控制机制
谷歌的AI推理控制为开发者提供了一定程度的精确度。该系统提供了一个灵活的范围,从零(最少的推理)到24576个“思维预算”的表征——代表模型内部处理的计算单位。粒度方法允许基于特定用例的定制部署。
DeepMind的首席研究科学家杰克·雷(Jack Rae)表示,定义最佳推理水平仍然具有挑战性:“真的很难划定一个界限,比如,现在什么是思考的完美任务。”
转变发展理念
人工智能推理控制的引入潜在地标志着人工智能进化方式的变化。自2019年以来,公司一直在通过建立具有更多参数和训练数据的更大模型来寻求改进。谷歌的方法提出了一条关注效率而非规模的替代路径。
“比例定律正在被取代,”哈比卜说,这表明未来的进步可能来自优化推理过程,而不是不断扩大模型规模。
环境影响同样重要。随着推理模型的激增,它们的能耗也成比例增长。研究表明,推理——生成人工智能反应——现在比最初的训练过程对该技术的碳足迹贡献更大。谷歌的推理控制机制为这种令人担忧的趋势提供了一个潜在的缓解因素。
竞争动态
谷歌并不是孤立运作的。今年早些时候出现的“开放权重”DeepSeek R1模型以潜在的较低成本展示了强大的推理能力,引发了市场波动,据报道,这导致了近万亿美元的股市波动。
与谷歌的专有方法不同,DeepSeek公开其内部设置,供开发人员在本地实现。
尽管存在竞争,但谷歌DeepMind的首席技术官Koray Kavukcuoglu坚持认为,专有模型将在需要特殊精度的专业领域保持优势:“编码、数学和金融是对模型有很高期望的情况,非常准确,非常精确,能够理解非常复杂的情况。”
行业成熟迹象
人工智能推理控制的发展反映了一个行业现在面临着超越技术基准的实际限制。虽然公司继续推进推理能力,但谷歌的方法承认了一个重要的现实:效率与商业应用的原始性能一样重要。
该专题还强调了技术进步和可持续发展之间的矛盾。跟踪推理模型性能的排行榜显示,完成单个任务的成本可能超过200美元,这就提出了在生产环境中扩展此类功能的问题。
通过允许开发者根据实际需要增加或减少推理,谷歌解决了人工智能部署的财务和环境方面的问题。
“推理是建立智力的关键能力,”Kavukcuoglu说。“模型开始思考的那一刻,模型的代理就已经开始了。”这一陈述揭示了推理模型的前景和挑战——它们的自主性既创造了机会,也带来了资源管理的挑战。
对于部署人工智能解决方案的组织来说,微调推理预算的能力可以在保持运营纪律的同时,使高级功能的访问民主化。
谷歌声称,Gemini 2.5 Flash提供了“与其他领先型号相当的指标,而成本和尺寸却只是其一小部分”——这一价值主张因能够为特定应用优化推理资源而得到加强。
实际影响
人工智能推理控制特性具有直接的实际应用。构建商业应用程序的开发人员现在可以在处理深度和运营成本之间做出明智的权衡。
对于简单的应用程序,如基本的客户查询,最小推理设置保留了资源,同时仍然使用模型的功能。对于需要深入理解的复杂分析,完整的推理能力仍然可用。
Google的推理“dial”提供了一种在保持性能标准的同时建立成本确定性的机制。