Anthropic Claude Opus 4.6 发布:百万 token 上下文 + 办公编程双突破,加量不加价
2026-02-06 21:30
53
2月6日,Anthropic正式推出旗舰级AI模型Claude Opus 4.6,距离上一版本仅间隔两个月,迭代节奏显著加快。
新版本以“自主性升级+生产力拉满”为核心,首次在Opus级别开放100万token超大上下文窗口,深耕编程与自动化办公场景,多项评测成绩超越行业竞品,且维持原有定价标准,成为AI智能体领域的重磅升级。

一、核心技术突破:百万上下文+自适应思考,解决长任务痛点
1.100万token上下文窗口,长文本处理能力质变
这是Claude Opus系列首次引入百万级token上下文,彻底改善长文本处理的“上下文衰减”问题:
处理范围:可一次性“读完”百万行代码库、超长篇技术文档或庞大财务数据集,无需分段上传;
精准定位:在MRCR v2 8-needle 1M“大海捞针”测试中得分76%,远超Sonnet 4.5的18.5%,能精准提取长文档中分散的关键信息;
配套功能:新增上下文压缩(Context Compaction),对话接近窗口上限时自动摘要替换旧内容,保障长对话与Agent任务流畅运行。
2.自适应思考+多档effort参数,推理效率可控
智能判断推理深度:无需手动开启/关闭扩展思考模式,模型可自主判断场景需求(如简单问答用低推理,复杂编程用高推理);
四档参数调节:支持low/medium/high/max四档effort参数(默认high),可手动调低过度思考场景,平衡效率与精度。
二、核心能力升级:编程、办公、推理全面领跑
1.编程能力:智能体任务耐力拉满,多场景评测登顶
Opus 4.6延续编程优势,在大规模代码处理与智能体任务中表现突出:
评测成绩:Terminal-Bench 2.0(终端编程)以65.4%得分位列第一,SWE-bench Verified(代码调试)80.8%持平前代,接近GPT-5.2的80.0%;
核心能力:能处理数百万行代码库迁移、跨语言软件工程问题,自主发现并修正代码错误,代码审查与调试精度显著提升,减少开发者手动纠偏成本。
2.办公生态:深度集成Excel+PowerPoint,变身“数字化员工”
打破传统AI“聊天框局限”,全面渗透办公全流程:
Excel集成深化:可摄入非结构化数据,自主推断表格结构,一次性完成多步骤复杂数据处理(如财务分析、数据分类汇总);
PowerPoint预览版上线:能铭记企业PPT模板(字体、布局、风格),自动生成贴合品牌调性的演示文稿,无明显“AI生成痕迹”;
多任务并行:在Cowork环境下可同步运行财务分析、研究整理等任务,无需用户逐一指令。
3.跨领域推理:法律、金融、搜索全面领先
推理能力:在“人类最后的考试”(Humanity's Last Exam)中领先所有前沿模型,跨学科复杂推理表现突出;
专业场景:BigLaw Bench法律评测得分90.2%,GDPval-AA经济价值任务以144 Elo超越GPT-5.2(约70%场景表现更优);
搜索能力:BrowseComp评测(难获取信息检索)排名行业第一,深度多步骤代理式搜索精准度领先。
0
好文章,需要你的鼓励
