腾讯姚顺雨团队首成果:发布 CL-bench 基准,揭示大模型 “不会从上下文学习” 的核心瓶颈

2026-02-04 21:15
52
2月3日,腾讯混元官网正式上线技术博客,发布首席AI科学家姚顺雨团队加入后的首个研究成果——上下文学习评测基准CL-bench。
该基准直指当前大模型的核心痛点:尽管前沿模型能解奥数、过专业考试,却无法像人类一样“从实时上下文学习新知识并应用”,10个主流SOTA模型在CL-bench上平均任务成功率仅17.2%,表现最好的GPT-5.1(High)也仅23.7%,彻底打破“大模型能应对真实场景”的认知误区。

一、研究背景:大模型是“做题家”,却不是“实干家”
当前大模型的进化集中在“调用预训练静态知识”,与人类真实工作能力存在本质差距:
人类的核心能力:实时从上下文学习——开发者扫陌生工具文档就能调试代码、玩家看新游戏规则书就能实战、科学家从实验日志推导结论,无需依赖“过去的死知识”;
大模型的短板:依赖“参数化知识”(预训练阶段压缩进权重的静态记忆),推理时仅调用固有知识,不会主动吸收当前输入的新信息(如自定义规则、小众领域知识),导致“能在考场拿满分,却做不好真实工作”。
为弥合这一差距,姚顺雨团队构建CL-bench,核心目标是强制模型从上下文学习“预训练中不存在的新知识”并正确应用,而非依赖记忆答题。
二、CL-bench基准:500个复杂任务,测透上下文学习能力
CL-bench由领域专家打造,包含“高复杂度、无污染、全可验证”的评测体系,确保结果真实反映模型的上下文学习能力:
1.核心构成:覆盖真实场景的四大任务类型
共包含500个复杂上下文、1899个任务、31607个验证标准,聚焦四类人类高频上下文学习场景,涵盖演绎与归纳推理:
2.设计亮点:确保“测的是学习,不是记忆”
为避免模型靠“预训练记忆”作弊,CL-bench采用三大无污染设计:
虚构创作:专家构建完全不存在的内容(如全新法律体系、独特编程语言);
修改现实内容:改动科学定义、历史事件(如修改数学公式规则),避免与训练数据重合;
整合小众内容:纳入预训练数据中极少出现的前沿研究、新产品手册;
验证结果:不提供上下文时,GPT-5.1(High)任务成功率不足1%,证明模型无法靠记忆解题,必须依赖上下文学习。
三、实验结果:10大模型“集体翻车”,暴露五大核心问题
团队在CL-bench上评测了OpenAI、Anthropic、谷歌、阿里、字节等10个主流模型,结果显示“上下文学习能力普遍缺失”,并提炼出五大关键结论:
1.失败主因:忽略或误用上下文(占比超55%)
模型常忽视上下文中的关键细节(如自定义规则、数据约束),或错误应用(如用预训练的法律知识替代上下文的虚构法律);
数据佐证:GPT-5.1(High)忽略上下文比例55.3%、误用比例61.5%,Claude Opus 4.5忽略比例56%、误用比例66%。
2.长上下文+指令遵循:必要但不充分
能处理长上下文、精准遵循指令的模型(如GPT-5.1)表现稍好,但仍会失败——上下文学习需要“吸收新信息+组织信息+应用”的综合能力,远超单一的长文本理解。
3.归纳推理比演绎推理难10倍+
演绎任务(应用规则,如按新语法写代码)成功率约20%,归纳任务(从数据找规律,如从实验日志提炼定律)成功率普遍低于10%,且结果波动大,证明“发现规律远比套用规则更难”。
4.高推理强度有帮助,但不是万能药
部分模型(如GPT-5.1)增加推理强度后,管理类、实验数据类任务成功率提升约6%,但多数模型提升有限甚至下降——模型需先“正确吸收上下文”,再谈“深度推理”。
5.难度≠长度:短上下文也可能很复杂
长上下文(32K+)会增加难度,但短上下文若包含“隐含规则、复杂依赖”(如500字的小众数学定义),模型仍会失败,说明上下文学习的难度源于“复杂度”而非仅“长度”。
四、行业意义:重构大模型优化方向,2026年聚焦“记忆与学习”
CL-bench的发布不仅揭示瓶颈,更为行业指明新方向:
优化重心转移:从“提升预训练知识量、解题能力”转向“增强上下文学习能力”,未来模型需像人类一样“边学边用”;
人类角色转变:若上下文学习能力突破,人类将从“模型训练的数据提供者”变为“任务的上下文提供者”,竞争焦点从“训模型”转向“给优质上下文”;
2026年核心主题:大模型“如何记忆”将成关键——需新架构、新优化方式解决“该保留哪些上下文知识”,最终实现“自主准备上下文→学习→巩固”的闭环。
姚顺雨团队的研究并非否定大模型的进步,而是戳破“能做题=能落地”的幻觉。CL-bench的价值在于提供了首个“测上下文学习能力”的标准,让行业从“盲目堆参数”回归“解决真实需求”——未来大模型的竞争力,将不再取决于“记住多少知识”,而在于“能快速学会多少新知识”。
0
好文章,需要你的鼓励