6月25日消息,Google宣布Computer Use(电脑操控/计算机使用)正式成为Gemini 3.5 Flash的内置工具,与代码执行、搜索、函数调用并列为模型原生支持的四大工具之一。此前开发者需要调用独立的Gemini 2.5 Computer Use模型来构建界面操控代理,现在只需在Flash中激活computer use参数即可。 这一变化的实际意义是将两步工作流压缩为一步。此前的流程是:用Flash做推理和规划,再调用专用Computer Use模型做屏幕操作,两个模型之间需要来回传递截图和指令。整合后,Flash在同一次调用中完成"理解任务→观察屏幕→执行操作"的完整循环。Google将其描述为让Flash"看到屏幕、理解内容、采取行动"。
Computer Use的工作机制是截图-分析-操作的持续循环:客户端应用捕获当前屏幕截图→发送给模型→模型识别按钮、文本框等UI元素并返回点击、输入、滚动等操作指令→客户端执行操作→捕获新截图→循环。该功能通过Gemini API和Gemini Enterprise Agent Platform(Vertex AI更名后的企业代理平台)提供,当前仍为预览状态。
OSWorld-Verified 78.4%:三大模型相差不到一个百分点
在衡量AI操控真实操作系统和应用能力的OSWorld-Verified基准上,Gemini 3.5 Flash得分78.4%,GPT-5.5为78.7%,Claude Opus 4.7为78.0%。三者之间的差距不到一个百分点,MLQ News将其描述为"事实上的三方平局"。
但在其他代理型基准上,三家各有领先领域。Gemini 3.5 Flash在MCP Atlas多步工作流上以83.6%领先,Claude Opus 4.7在SWE-Bench Pro代码库级编辑上以64.3%占优,GPT-5.5在Terminal-Bench 2.1 shell执行上以78.2%居首。Computer Use正在成为前沿模型的标配能力,但"谁在屏幕操控上最强"这个问题目前没有明确答案——取决于你看哪个基准、跑哪类任务。
值得注意的是,Anthropic在2024年10月率先将Computer Use引入Claude 3.5 Sonnet,开创了这一品类。Google在2025年10月推出独立的Computer Use模型,2026年1月将其引入3.0 Pro和3.0 Flash的预览版本,现在正式整合进3.5 Flash。从跟随到追平用了不到两年。
定价和企业落地:Flash的成本优势能否在实际工作流中成立
Gemini 3.5 Flash的定价为输入1.5美元/百万token、输出9美元/百万token,Google称这不到同类前沿模型的一半。Salesforce、Xero、Shopify和Ramp已作为早期企业集成方接入Computer Use能力。目标场景包括持续软件测试(代理自动验证功能而无需人工逐屏操作)、跨应用知识工作(在专业应用之间提取和整合信息)、以及重复性表单填写和多网站研究。
但成本优势能否在实际工作流中成立取决于两个变量:一是典型代理工作流需要多少次操作循环(每次循环消耗截图分析的token),二是安全护栏多频繁地中断执行要求用户确认。Computer Use不是单次调用就能完成的任务,而是一个持续的截图-分析-操作循环,token消耗与任务步骤数成正比。考虑到Flash本身的token消耗问题已在代理任务中被广泛吐槽(Artificial Analysis测试显示实际运行成本是上一代的5.5倍),Computer Use场景下的真实成本需要开发者实测后才能判断。
安全设计:对抗性训练+两道可选企业护栏
Google为3.5 Flash的Computer Use场景专门做了针对性的对抗训练,以降低在实时环境中操作时的提示注入风险。同时发布两个可选的企业安全系统:一是对敏感或不可逆操作要求用户明确确认,二是在检测到间接提示注入时自动停止任务。Google建议开发者采用"纵深防御"策略,将这些功能与安全沙箱、人机协作验证和严格访问控制结合使用。
模型安全指标方面,3.5 Flash相比3.0 Flash在文本到文本安全上提升3.9%,多语言安全提升2.6%,语气改善8.9%。但The Next Web的分析指出,Google将Computer Use做成内置工具而非独立模型,信号是对该能力成熟度的信心;同时提供可选而非强制的安全护栏,则信号是对该能力在无人监督下运行的成熟度仍持保留态度。
Computer Use的当前边界:能做什么、不能做什么
Computer Use目前能处理的场景包括:导航复杂Web应用、点击按钮和管理表单、在移动端模拟触摸操作、在桌面端控制软件并基于实时截图打字。支持浏览器、移动设备和桌面三种环境,相比此前独立模型仅支持浏览器有了显著扩展。
不能可靠处理的场景同样明确:意外弹窗、验证码(CAPTCHA)、动态加载内容、以及模型未见过的界面布局。Neowin的评测指出,大多数商业软件和在线服务是为人类交互设计的而非AI,Computer Use弥合了这个差距但并未消除它。当屏幕上的元素位置、样式或交互模式偏离训练数据中常见的模式时,模型的可靠性会显著下降。
Computer Use正在从"实验性能力"变成"基础设施级工具"——三大前沿模型同时支持、企业集成方开始接入、安全机制逐步标准化。但"AI能操作电脑"和"AI能可靠地替代人操作电脑"之间,仍有一段距离需要工程实践来填补。