Gemini 3.5 Flash原生内置Computer Use，屏幕操控三巨头差距不足1%

2026-06-25 14:14

6月25日消息，Google宣布Computer Use（电脑操控/计算机使用）正式成为Gemini 3.5 Flash的内置工具，与代码执行、搜索、函数调用并列为模型原生支持的四大工具之一。此前开发者需要调用独立的Gemini 2.5 Computer Use模型来构建界面操控代理，现在只需在Flash中激活computer use参数即可。

Gemini 3.5 Flash原生内置Computer Use，屏幕操控三巨头差距不足1%

这一变化的实际意义是将两步工作流压缩为一步。此前的流程是：用Flash做推理和规划，再调用专用Computer Use模型做屏幕操作，两个模型之间需要来回传递截图和指令。整合后，Flash在同一次调用中完成"理解任务→观察屏幕→执行操作"的完整循环。Google将其描述为让Flash"看到屏幕、理解内容、采取行动"。

Computer Use的工作机制是截图-分析-操作的持续循环：客户端应用捕获当前屏幕截图→发送给模型→模型识别按钮、文本框等UI元素并返回点击、输入、滚动等操作指令→客户端执行操作→捕获新截图→循环。该功能通过Gemini API和Gemini Enterprise Agent Platform（Vertex AI更名后的企业代理平台）提供，当前仍为预览状态。

OSWorld-Verified 78.4%：三大模型相差不到一个百分点

在衡量AI操控真实操作系统和应用能力的OSWorld-Verified基准上，Gemini 3.5 Flash得分78.4%，GPT-5.5为78.7%，Claude Opus 4.7为78.0%。三者之间的差距不到一个百分点，MLQ News将其描述为"事实上的三方平局"。

但在其他代理型基准上，三家各有领先领域。Gemini 3.5 Flash在MCP Atlas多步工作流上以83.6%领先，Claude Opus 4.7在SWE-Bench Pro代码库级编辑上以64.3%占优，GPT-5.5在Terminal-Bench 2.1 shell执行上以78.2%居首。Computer Use正在成为前沿模型的标配能力，但"谁在屏幕操控上最强"这个问题目前没有明确答案——取决于你看哪个基准、跑哪类任务。

值得注意的是，Anthropic在2024年10月率先将Computer Use引入Claude 3.5 Sonnet，开创了这一品类。Google在2025年10月推出独立的Computer Use模型，2026年1月将其引入3.0 Pro和3.0 Flash的预览版本，现在正式整合进3.5 Flash。从跟随到追平用了不到两年。

定价和企业落地：Flash的成本优势能否在实际工作流中成立

Gemini 3.5 Flash的定价为输入1.5美元/百万token、输出9美元/百万token，Google称这不到同类前沿模型的一半。Salesforce、Xero、Shopify和Ramp已作为早期企业集成方接入Computer Use能力。目标场景包括持续软件测试（代理自动验证功能而无需人工逐屏操作）、跨应用知识工作（在专业应用之间提取和整合信息）、以及重复性表单填写和多网站研究。

但成本优势能否在实际工作流中成立取决于两个变量：一是典型代理工作流需要多少次操作循环（每次循环消耗截图分析的token），二是安全护栏多频繁地中断执行要求用户确认。Computer Use不是单次调用就能完成的任务，而是一个持续的截图-分析-操作循环，token消耗与任务步骤数成正比。考虑到Flash本身的token消耗问题已在代理任务中被广泛吐槽（Artificial Analysis测试显示实际运行成本是上一代的5.5倍），Computer Use场景下的真实成本需要开发者实测后才能判断。

安全设计：对抗性训练+两道可选企业护栏

Google为3.5 Flash的Computer Use场景专门做了针对性的对抗训练，以降低在实时环境中操作时的提示注入风险。同时发布两个可选的企业安全系统：一是对敏感或不可逆操作要求用户明确确认，二是在检测到间接提示注入时自动停止任务。Google建议开发者采用"纵深防御"策略，将这些功能与安全沙箱、人机协作验证和严格访问控制结合使用。

模型安全指标方面，3.5 Flash相比3.0 Flash在文本到文本安全上提升3.9%，多语言安全提升2.6%，语气改善8.9%。但The Next Web的分析指出，Google将Computer Use做成内置工具而非独立模型，信号是对该能力成熟度的信心；同时提供可选而非强制的安全护栏，则信号是对该能力在无人监督下运行的成熟度仍持保留态度。

Computer Use的当前边界：能做什么、不能做什么

Computer Use目前能处理的场景包括：导航复杂Web应用、点击按钮和管理表单、在移动端模拟触摸操作、在桌面端控制软件并基于实时截图打字。支持浏览器、移动设备和桌面三种环境，相比此前独立模型仅支持浏览器有了显著扩展。

不能可靠处理的场景同样明确：意外弹窗、验证码（CAPTCHA）、动态加载内容、以及模型未见过的界面布局。Neowin的评测指出，大多数商业软件和在线服务是为人类交互设计的而非AI，Computer Use弥合了这个差距但并未消除它。当屏幕上的元素位置、样式或交互模式偏离训练数据中常见的模式时，模型的可靠性会显著下降。

Computer Use正在从"实验性能力"变成"基础设施级工具"——三大前沿模型同时支持、企业集成方开始接入、安全机制逐步标准化。但"AI能操作电脑"和"AI能可靠地替代人操作电脑"之间，仍有一段距离需要工程实践来填补。

好文章，需要你的鼓励