Claude Opus 4.5发布：可智能修复bug、永不遗忘对话

2025-11-25 14:08

Claude Opus 4.5来了，这次更新的重点放在了编码、Agent和computer use上。从实测表现来看，它在前端开发、视觉处理、电脑操作这几个方面都有明显进步，在深度研究、制作PPT、处理Excel这些日常工作场景的表现也提升了不少。

你让Opus 4.5用附件模板做个财务对比分析，它能快速完成模板读取、抓取同行数据、创建估值倍数表，几分钟就能给你输出现成的Excel文件。

拿它来改法律文档也挺顺手，解包模板、替换公司名称、检查签名块这些操作都能搞定，生成的Word文件里还带着修订痕迹和定制内容。

测试下来发现，这个模型最大的优势在于"理解力"够强。那些Sonnet模型找不到的bug，它能发现并解决，而且它懂得什么时候该先思考再动手，不会乱来。

现在你可以通过app、API还有三大云平台使用Opus 4.5了。开发者调用Claude API时用claude-opus-4-5-20251101这个模型字符串就行，定价是每百万tokens输入5美元、输出25美元。

同时官方也更新了开发者平台、Claude Code和App，还扩展了在Excel、Chrome和桌面端使用Claude的新方式。

团队内部测试时发现，Opus 4.5处理模糊场景、做复杂决策的时候基本不需要人工介入了。碰到跨系统的复杂漏洞，它也能自己定位问题并给出修复方案。

以前Sonnet 4.5几乎搞不定的任务，现在Opus 4.5已经能轻松拿下。测试人员普遍觉得它"是真的懂你想要什么"。

团队拿了份给性能工程师候选人的居家测试题来考Opus 4.5，这份题在业内公认难度很高。在2小时的限制时间里，Opus 4.5的得分超过了所有参加过这个考试的人类候选人。

这个结果让人开始思考AI会怎样改变整个工程行业。

从具体数据看，Opus 4.5在视觉处理、推理和数学方面都超过了前代产品，已经达到业界顶尖水平。

编码能力方面的表现更亮眼。在SWE-bench多语言测试中，8种编程语言里有7种它都排第一。Aider Polyglot基准测试面对高难度编码问题时，它的得分比Sonnet 4.5高出10.6%。

在智能体搜索和长时任务处理上也有明显提升。Vending-Bench测试显示，Opus 4.5的任务完成收益比Sonnet 4.5高29%，全程都能保持高效输出，不会跑偏。

团队特别提到，模型的真实能力其实比某些测试基准显示的还要好。有时候Claude给出的解决方案太超前了，基准测试反而会判定为失败。

比如τ2-bench里有个场景，模型得扮演航空公司客服帮助遇到困难的客户。按照基准测试的预期，模型应该拒绝修改基础经济舱预订（因为规定不让改），但Opus 4.5找到了个巧妙又合规的办法：先给客户升舱，然后再改航班。

另外，Opus 4.5在安全防护方面也加强了，特别是应对提示词注入攻击这类问题。

Claude API新增了"努力度参数"（effort parameter），你可以根据实际需求选择是优先节省时间成本，还是追求最强性能。

在中等努力度设置下，Opus 4.5在SWE-bench Verified测试中能达到Sonnet 4.5的最佳得分，但输出tokens用量减少了76%。

开到最高努力度时，它的性能比Sonnet 4.5高出4.3个百分点，tokens用量也能减少48%。

配合努力度控制、上下文压缩还有高级工具调用功能，Opus 4.5能支持更长时间运行、处理更多任务，需要人工干预的情况也少很多。

它还能高效管理多个子智能体，可以用来搭建复杂的多智能体协调系统。团队测试中结合这些技术后，Opus 4.5在深度调研评估方面的表现提升了将近15个百分点。

Claude系列产品也跟着一起升级了。

Claude Code推出了两个新功能：计划模式（Plan Mode）现在能生成更精准的执行计划并完整落地，Claude会先主动跟你确认需求细节，然后生成可编辑的plan.md文件再执行操作。

Claude Code已经登陆桌面端应用了，支持同时运行多个本地和远程会话。也就是说，你可以同时让一个智能体修bug、一个查GitHub、另一个更新文档。

对于用Claude app的人来说，不用再担心上下文窗口不够导致长对话中断了。现在Claude会自动按需总结之前的对话内容，聊天基本上可以无限续航。

Chrome浏览器的Claude扩展程序现在对所有Max订阅用户开放了，支持跨标签页处理任务。Claude for Excel今天开始向所有Max、Team和Enterprise用户开放测试权限。

对于能用Opus 4.5的Claude和Claude Code用户，官方取消了Opus专用限额。Max和Team Premium用户的整体使用额度也提高了，Opus的tokens用量跟之前Sonnet差不多。

从这次更新看，Opus 4.5在编码、Agent应用、长时任务处理等多个维度都实现了突破。配合新增的努力度参数和系列产品升级，你能更灵活地在成本和性能之间找平衡点，这对开发者来说挺实用的。

好文章，需要你的鼓励