5 月 29 日,Anthropic 正式推出全新旗舰大模型Claude Opus 4.8。
本次更新看似是常规版本迭代,实则在性能跑分、运行模式、推理机制、编程协作及 API 适配等维度实现全方位进阶,模型定价保持不变,同时曝光了重磅Mythos模型布局,再度搅动高端 AI 大模型市场竞争格局。
本文从五大维度梳理 Claude Opus 4.8 核心升级亮点。
一、综合性能稳步跃升 定价保持不变
Claude Opus 4.8 在权威基准测试中实现全面得分上涨。
编程领域 SWE-Bench Pro 跑分从 4.7 版本的 64.3 提升至 69.2,跨学科推理能力同步增强;在 OSWorld 系统操作、GDPval 知识办公等实测场景中,表现也实现稳步攀升。值得一提的是,新版本定价未做任何调整,用户可即刻接入使用,以原有成本享受更强综合算力。
二、核心功能三大优化 弱化幻觉回归用户掌控
此次版本摒弃了过度自动化设计,回归实用化与可控性,带来三大关键优化。
首先,fast 模式全面升级,运行速度提升至前代的 2.5 倍,且相比上一代 fast 模式价格降低三倍,不过整体仍处于高端定价区间。
其次,手动推理权限回归,取消 4.7 版本自适应推理机制,将 effort 深度思考档位交还用户自主把控,解决了模型自主思考不可控、高成本浪费的问题,同时官方正式下架 Claude Opus 4.6 版本。
最后,诚实性显著提升,大幅降低任务未完成却虚假宣告完工的概率,该失误发生率仅为 4.7 版本的四分之一,有效减少 AI 幻觉问题,任务执行更严谨可靠。
Claude Code 迎来dynamic workflows 动态工作流重磅功能,重构复杂任务处理模式。
用户仅需输入create a workflow指令,模型便会自主规划整体任务逻辑,在单一会话中拉起数百个并行子智能体,拆分细分任务、独立执行作业、逐一验证结果后统一汇总输出。该功能尤其适配大型工程开发场景,例如将百万行 Java 代码迁移至 Kotlin 语言,模型可自动拆分任务、调整文件结构、改写语法逻辑,最终生成可直接合并的 PR 文件,极大降低大型项目改造的人工成本。
四、API 接口迭代升级 中途改规则更省 Token
过往 Claude API 使用存在明显短板,需完整提交全量对话记录,若任务中途想修改系统规则、调整权限配置,只能重构提示词或迂回补充,不仅操作繁琐,还易中断缓存、浪费 Token 资源。
Claude Opus 4.8 针对性优化 API 能力,支持会话中途插入系统指令,无需重构整段对话内容,既能简化开发调试流程,又能有效节约 Token 消耗,更贴合企业定制化开发与批量任务部署需求。
五、对标 GPT-5.5 差异化定位 Mythos 模型蓄势待发
在 Terminal-Bench 2.1 命令行编程测试中,Opus 4.8 得分 74.6,略低于 GPT-5.5 的 78.2,而 GPT-5.5 在 codex cli 场景下跑分可达 83.4 分。
两款模型定位差异清晰:
GPT-5.5 如同资深执行工程师,擅长接收明确指令,完成命令行操作、日志排查、配置修改等落地任务;
Opus 4.8 则偏向协作型工程师,擅长通读完整项目架构,跨多文件渐进式迭代改造,更适合长周期、高复杂度的全项目开发。
此外,Anthropic 旗下高端模型Mythos已小范围落地网络安全领域,单月可从主流软件中挖掘上万条高危漏洞,未来或将对标 GPT5.6 强势入局高端大模型赛道。整体而言,Claude Opus 4.8 并非小幅版本微调,而是性能、功能、工程协作与接口能力的全方位升级。
凭借差异化的产品定位,Anthropic 持续与 OpenAI 分庭抗礼,而 Mythos 模型的后续落地,也将进一步重塑全球高端商用大模型的竞争格局。