- 上海AI实验室(InternScience团队)开源Agent-A1,一个350亿参数的混合专家MoE模型,专为长周期智能体任务设计,平均训练轨迹长度达45K token
- 核心创新是"扩展行动时序而非堆参数"——通过高质量的长轨迹数据和三阶段蒸馏训练,让35B模型在长周期Agent基准上匹敌万亿参数级别模型
- 训练采用三阶段pipeline:全域SFT对齐基础行为 → 多领域教师模型捕获专业能力 → 领域路由on-policy蒸馏+显著词汇对齐,将六个异构领域的能力统一到一个学生模型
- 关键基准表现:SEAL-0达56.4、IFBench 80.6、HiPhO 46.4、FrontierScience-Olympiad 79.0、MolBench-Bind 56.8——均超越或持平Kimi-K2.6和DeepSeek-V4-pro等万亿参数模型
- 支持256K上下文窗口,原生工具调用(API、代码解释器、搜索引擎),Apache 2.0协议开源,权重和代码已在Hugging Face和GitHub发布
Agent-A1是什么:不堆参数,堆行动时序
Agent-A1是上海人工智能实验室InternScience团队开源的一个350亿参数混合专家(MoE)智能体模型。它的核心主张和当前AI行业的主流路线完全不同:不是继续加参数规模,而是扩展智能体的行动时序长度——让Agent能在长达数小时、涉及数十乃至上百步的复杂流程中持续保持目标一致性、自我验证和纠错能力。
这种思路选择了另一个scaling方向,论文标题叫"Scaling the Horizon, Not the Parameters"(缩放水平线,而不是参数)。它的输入是一段长周期任务的描述、工具集合和环境反馈,输出是经过多轮推理和工具调用的最终结果。训练时使用的轨迹平均长度达到45K token——这意味着一整段完整的Agent行为链条,包含思考、工具调用、观察结果、自我修正,而不是传统训练中的单轮问答对。
Agent-A1在Hugging Face上以InternScience/Agents-A1发布,权重和代码同时开源在GitHub(github.com/InternScience/Agents-A1),使用Apache 2.0许可证。它还附带项目页面internscience.github.io/Agents-A1,提供详细的模型卡和示例。
核心技术:三阶段蒸馏与知识-行动基础设施
Agent-A1有两个层面的技术创新。第一个是构建了一套知识-行动基础设施。传统训练中Agent的轨迹数据通常被当作序列文本处理,Agent-A1的做法是把外部知识、工具调用结果、环境观察、验证器反馈全部串联成结构化的可训练轨迹。这套基础设施不仅记录Agent做了什么,还记录了Agent做错之后如何通过验证器信号自我纠正。失败案例不是训练中的噪声,而是作为一等公民数据参与到训练中。
第二个是三阶段蒸馏pipeline,这是Agent-A1能够用35B参数达到万亿参数级别表现的关键机制。第一阶段是全域监督微调,让基础模型获得通用的智能体行为模式——理解工具调用格式、对话模板、基本推理流程。第二阶段分别训练领域特定的教师模型,每个教师模型在六个异构领域之一中达到专家水平,这些领域包括浏览器操作、科学推理、工程任务、工具调用、搜索和指令遵循。第三阶段通过领域路由的on-policy蒸馏,结合显著词汇对齐技术,把六个教师模型的专业能力高效地转移到一个统一的35B学生模型中。显著词汇对齐确保了蒸馏过程中关键术语和理解不会丢失,这是多领域蒸馏中最容易出问题的环节。
真实的性能表现:35B对万亿参数的交锋
Agent-A1在多个长周期Agent基准上提交了一份令人信服的成绩单。在SEAL-0上拿到56.4,超过Kimi-K2.6和DeepSeek-V4-pro的对应成绩。IFBench达到80.6,同样是领先水平。在更偏向科学推理的HiPhO基准上拿到46.4——这个基准测试的是Agent在物理和数学问题上的长时间推理能力。FrontierScience-Olympiad达到79.0,高于Kimi-K2.6的73.0和DeepSeek-V4-pro的76.0。MolBench-Bind达到56.8,检验在分子领域的工具调用和推理能力。
在部分通用基准上,Agent-A1同样保持了竞争力:SciCode 44.3、HLE 47.6、BrowseComp 75.5。这些成绩并不是在所有任务上都达到万亿参数模型的水平,但在长周期Agent任务这个特定维度上,35B的Agent-A1确实做到了与万亿参数模型比肩甚至超越。
不过也需要看到它的边界。Agent-A1在长周期Agent任务上极强,但在通用学术基准上的表现更接近它所在的参数级别,而非万亿参数级别。HLE的47.6和SciCode的44.3说明它在单轮、短step的知识密集型任务上并没有跨级碾压。它的优势集中在"需要长时间持续推理、多次工具调用、自我验证修正"的场景,而非广泛通用能力。
适用场景:长周期任务才是主场
Agent-A1最擅长的是那些需要持续数分钟到数小时、涉及多步工具调用和自主决策的任务。典型场景包括复杂科学实验的设计与验证——你给Agent一个研究假设,它自己去搜文献、设计实验、调用分析工具、返回结论。还有长周期文献调研与证据链构建——Agent需要搜索多轮、交叉验证来源、最终形成结构化的研究报告。工程流程规划与调试也是一个好场景——多步脚本编写、执行、检查错误、修正后再执行,这种循环正是Agent-A1训练数据中的典型行为。
在部署上,Agent-A1支持vLLM推理,这是社区推荐的首选方式,对MoE架构的显存利用率高。你也可以用Hugging Face Transformers做开发和调试。256K的上下文窗口让它可以处理非常长的Agent运行日志和历史记录。Apache 2.0协议意味着商用和二次开发都没有法律障碍。
在Agent生态中的定位
Agent-A1的开源是2026年中等规模智能体模型路线的一次重要验证。"Scaling the Horizon, Not the Parameters"这个命题如果成立,意味着Agent能力的提升可以不再依赖堆算力和堆参数——通过更好的训练数据、更长的行动轨迹、更精细的蒸馏策略,中等规模模型同样可以实现前沿级的Agent表现。这对于降低Agent部署成本、推动Agent在生产环境中的落地有直接意义。
从社区反应来看,Agent-A1被普遍视为从"参数竞赛"转向"轨迹质量竞赛"的信号。它的价值和万亿参数模型不是替代关系,而是互补——万亿参数模型在通用知识宽度上依然领先,但Agent-A1在"能用35B干成多大的事"这个问题上给出了一个漂亮的答案。
论文地址:arxiv.org/abs/2606.30616
模型权重:huggingface.co/InternScience/Agents-A1
代码仓库:github.com/InternScience/Agents-A1