Claude Opus 4.5发布:可智能修复bug、永不遗忘对话

2025-11-25 14:08
阅读52

Claude Opus 4.5来了,这次更新的重点放在了编码、Agent和computer use上。从实测表现来看,它在前端开发、视觉处理、电脑操作这几个方面都有明显进步,在深度研究、制作PPT、处理Excel这些日常工作场景的表现也提升了不少。

image.png

实际应用能力如何

你让Opus 4.5用附件模板做个财务对比分析,它能快速完成模板读取、抓取同行数据、创建估值倍数表,几分钟就能给你输出现成的Excel文件。

拿它来改法律文档也挺顺手,解包模板、替换公司名称、检查签名块这些操作都能搞定,生成的Word文件里还带着修订痕迹和定制内容。

测试下来发现,这个模型最大的优势在于"理解力"够强。那些Sonnet模型找不到的bug,它能发现并解决,而且它懂得什么时候该先思考再动手,不会乱来。

现在你可以通过app、API还有三大云平台使用Opus 4.5了。开发者调用Claude API时用claude-opus-4-5-20251101这个模型字符串就行,定价是每百万tokens输入5美元、输出25美元。

同时官方也更新了开发者平台、Claude Code和App,还扩展了在Excel、Chrome和桌面端使用Claude的新方式。

编码智能体能力全面升级

团队内部测试时发现,Opus 4.5处理模糊场景、做复杂决策的时候基本不需要人工介入了。碰到跨系统的复杂漏洞,它也能自己定位问题并给出修复方案。

以前Sonnet 4.5几乎搞不定的任务,现在Opus 4.5已经能轻松拿下。测试人员普遍觉得它"是真的懂你想要什么"。

团队拿了份给性能工程师候选人的居家测试题来考Opus 4.5,这份题在业内公认难度很高。在2小时的限制时间里,Opus 4.5的得分超过了所有参加过这个考试的人类候选人。

这个结果让人开始思考AI会怎样改变整个工程行业。

从具体数据看,Opus 4.5在视觉处理、推理和数学方面都超过了前代产品,已经达到业界顶尖水平。

image.png

编码能力方面的表现更亮眼。在SWE-bench多语言测试中,8种编程语言里有7种它都排第一。Aider Polyglot基准测试面对高难度编码问题时,它的得分比Sonnet 4.5高出10.6%。

在智能体搜索和长时任务处理上也有明显提升。Vending-Bench测试显示,Opus 4.5的任务完成收益比Sonnet 4.5高29%,全程都能保持高效输出,不会跑偏。

团队特别提到,模型的真实能力其实比某些测试基准显示的还要好。有时候Claude给出的解决方案太超前了,基准测试反而会判定为失败。

比如τ2-bench里有个场景,模型得扮演航空公司客服帮助遇到困难的客户。按照基准测试的预期,模型应该拒绝修改基础经济舱预订(因为规定不让改),但Opus 4.5找到了个巧妙又合规的办法:先给客户升舱,然后再改航班。

另外,Opus 4.5在安全防护方面也加强了,特别是应对提示词注入攻击这类问题。

开发者平台以及系列产品升级

Claude API新增了"努力度参数"(effort parameter),你可以根据实际需求选择是优先节省时间成本,还是追求最强性能。

在中等努力度设置下,Opus 4.5在SWE-bench Verified测试中能达到Sonnet 4.5的最佳得分,但输出tokens用量减少了76%。

开到最高努力度时,它的性能比Sonnet 4.5高出4.3个百分点,tokens用量也能减少48%。

image.png

配合努力度控制、上下文压缩还有高级工具调用功能,Opus 4.5能支持更长时间运行、处理更多任务,需要人工干预的情况也少很多。

它还能高效管理多个子智能体,可以用来搭建复杂的多智能体协调系统。团队测试中结合这些技术后,Opus 4.5在深度调研评估方面的表现提升了将近15个百分点。

Claude系列产品也跟着一起升级了。

Claude Code推出了两个新功能:计划模式(Plan Mode)现在能生成更精准的执行计划并完整落地,Claude会先主动跟你确认需求细节,然后生成可编辑的plan.md文件再执行操作。

Claude Code已经登陆桌面端应用了,支持同时运行多个本地和远程会话。也就是说,你可以同时让一个智能体修bug、一个查GitHub、另一个更新文档。

对于用Claude app的人来说,不用再担心上下文窗口不够导致长对话中断了。现在Claude会自动按需总结之前的对话内容,聊天基本上可以无限续航。

Chrome浏览器的Claude扩展程序现在对所有Max订阅用户开放了,支持跨标签页处理任务。Claude for Excel今天开始向所有Max、Team和Enterprise用户开放测试权限。

image.png

对于能用Opus 4.5的Claude和Claude Code用户,官方取消了Opus专用限额。Max和Team Premium用户的整体使用额度也提高了,Opus的tokens用量跟之前Sonnet差不多。

从这次更新看,Opus 4.5在编码、Agent应用、长时任务处理等多个维度都实现了突破。配合新增的努力度参数和系列产品升级,你能更灵活地在成本和性能之间找平衡点,这对开发者来说挺实用的。

0
好文章,需要你的鼓励