上海AI实验室Agent-A1：350亿参数MoE专攻长周期任务

2026-07-03 18:01

上海AI实验室（InternScience团队）开源Agent-A1，一个350亿参数的混合专家MoE模型，专为长周期智能体任务设计，平均训练轨迹长度达45K token

核心创新是"扩展行动时序而非堆参数"——通过高质量的长轨迹数据和三阶段蒸馏训练，让35B模型在长周期Agent基准上匹敌万亿参数级别模型

训练采用三阶段pipeline：全域SFT对齐基础行为 → 多领域教师模型捕获专业能力 → 领域路由on-policy蒸馏+显著词汇对齐，将六个异构领域的能力统一到一个学生模型

关键基准表现：SEAL-0达56.4、IFBench 80.6、HiPhO 46.4、FrontierScience-Olympiad 79.0、MolBench-Bind 56.8——均超越或持平Kimi-K2.6和DeepSeek-V4-pro等万亿参数模型

支持256K上下文窗口，原生工具调用（API、代码解释器、搜索引擎），Apache 2.0协议开源，权重和代码已在Hugging Face和GitHub发布

Agent-A1是什么：不堆参数，堆行动时序

Agent-A1是上海人工智能实验室InternScience团队开源的一个350亿参数混合专家（MoE）智能体模型。它的核心主张和当前AI行业的主流路线完全不同：不是继续加参数规模，而是扩展智能体的行动时序长度——让Agent能在长达数小时、涉及数十乃至上百步的复杂流程中持续保持目标一致性、自我验证和纠错能力。

这种思路选择了另一个scaling方向，论文标题叫"Scaling the Horizon, Not the Parameters"（缩放水平线，而不是参数）。它的输入是一段长周期任务的描述、工具集合和环境反馈，输出是经过多轮推理和工具调用的最终结果。训练时使用的轨迹平均长度达到45K token——这意味着一整段完整的Agent行为链条，包含思考、工具调用、观察结果、自我修正，而不是传统训练中的单轮问答对。

Agent-A1在Hugging Face上以InternScience/Agents-A1发布，权重和代码同时开源在GitHub（github.com/InternScience/Agents-A1），使用Apache 2.0许可证。它还附带项目页面internscience.github.io/Agents-A1，提供详细的模型卡和示例。

核心技术：三阶段蒸馏与知识-行动基础设施

Agent-A1有两个层面的技术创新。第一个是构建了一套知识-行动基础设施。传统训练中Agent的轨迹数据通常被当作序列文本处理，Agent-A1的做法是把外部知识、工具调用结果、环境观察、验证器反馈全部串联成结构化的可训练轨迹。这套基础设施不仅记录Agent做了什么，还记录了Agent做错之后如何通过验证器信号自我纠正。失败案例不是训练中的噪声，而是作为一等公民数据参与到训练中。

第二个是三阶段蒸馏pipeline，这是Agent-A1能够用35B参数达到万亿参数级别表现的关键机制。第一阶段是全域监督微调，让基础模型获得通用的智能体行为模式——理解工具调用格式、对话模板、基本推理流程。第二阶段分别训练领域特定的教师模型，每个教师模型在六个异构领域之一中达到专家水平，这些领域包括浏览器操作、科学推理、工程任务、工具调用、搜索和指令遵循。第三阶段通过领域路由的on-policy蒸馏，结合显著词汇对齐技术，把六个教师模型的专业能力高效地转移到一个统一的35B学生模型中。显著词汇对齐确保了蒸馏过程中关键术语和理解不会丢失，这是多领域蒸馏中最容易出问题的环节。

真实的性能表现：35B对万亿参数的交锋

Agent-A1在多个长周期Agent基准上提交了一份令人信服的成绩单。在SEAL-0上拿到56.4，超过Kimi-K2.6和DeepSeek-V4-pro的对应成绩。IFBench达到80.6，同样是领先水平。在更偏向科学推理的HiPhO基准上拿到46.4——这个基准测试的是Agent在物理和数学问题上的长时间推理能力。FrontierScience-Olympiad达到79.0，高于Kimi-K2.6的73.0和DeepSeek-V4-pro的76.0。MolBench-Bind达到56.8，检验在分子领域的工具调用和推理能力。

在部分通用基准上，Agent-A1同样保持了竞争力：SciCode 44.3、HLE 47.6、BrowseComp 75.5。这些成绩并不是在所有任务上都达到万亿参数模型的水平，但在长周期Agent任务这个特定维度上，35B的Agent-A1确实做到了与万亿参数模型比肩甚至超越。

不过也需要看到它的边界。Agent-A1在长周期Agent任务上极强，但在通用学术基准上的表现更接近它所在的参数级别，而非万亿参数级别。HLE的47.6和SciCode的44.3说明它在单轮、短step的知识密集型任务上并没有跨级碾压。它的优势集中在"需要长时间持续推理、多次工具调用、自我验证修正"的场景，而非广泛通用能力。

适用场景：长周期任务才是主场

Agent-A1最擅长的是那些需要持续数分钟到数小时、涉及多步工具调用和自主决策的任务。典型场景包括复杂科学实验的设计与验证——你给Agent一个研究假设，它自己去搜文献、设计实验、调用分析工具、返回结论。还有长周期文献调研与证据链构建——Agent需要搜索多轮、交叉验证来源、最终形成结构化的研究报告。工程流程规划与调试也是一个好场景——多步脚本编写、执行、检查错误、修正后再执行，这种循环正是Agent-A1训练数据中的典型行为。

在部署上，Agent-A1支持vLLM推理，这是社区推荐的首选方式，对MoE架构的显存利用率高。你也可以用Hugging Face Transformers做开发和调试。256K的上下文窗口让它可以处理非常长的Agent运行日志和历史记录。Apache 2.0协议意味着商用和二次开发都没有法律障碍。

在Agent生态中的定位

Agent-A1的开源是2026年中等规模智能体模型路线的一次重要验证。"Scaling the Horizon, Not the Parameters"这个命题如果成立，意味着Agent能力的提升可以不再依赖堆算力和堆参数——通过更好的训练数据、更长的行动轨迹、更精细的蒸馏策略，中等规模模型同样可以实现前沿级的Agent表现。这对于降低Agent部署成本、推动Agent在生产环境中的落地有直接意义。

从社区反应来看，Agent-A1被普遍视为从"参数竞赛"转向"轨迹质量竞赛"的信号。它的价值和万亿参数模型不是替代关系，而是互补——万亿参数模型在通用知识宽度上依然领先，但Agent-A1在"能用35B干成多大的事"这个问题上给出了一个漂亮的答案。

论文地址：arxiv.org/abs/2606.30616

模型权重：huggingface.co/InternScience/Agents-A1

代码仓库：github.com/InternScience/Agents-A1

好文章，需要你的鼓励