AI机器学习专家ML-Master 2.0,超越谷歌,登顶全球第一!
2025-12-25 14:19
148
《三体》中有干扰基础物理实验的「智子」,《2001太空漫游》里有具备自主决策能力的HAL,其实人类对一个问题的想象由来已久:
如果智能体不再只是工具,而是能够像科学家一样,在复杂环境中长期探索、不断修正假设,科学会发生什么变化?
很长一段时间里,这样的设想更多停留在科学想象中;而随着大模型能力的快速跃迁,它正逐渐演变为一个正在被认真对待的现实技术命题。
越来越多研究者开始意识到,真正的分水岭并不在于AI能否把题「答对」,而在于它能否像科研人员一样,在长期不确定的探索过程中不断修正方向、积累经验,并在反复试错中推动知识本身向前演化。
Google DeepMind推出的AlphaEvolve,试图让AI在长时间的演化过程中不断修正自身策略;
OpenAI提出的Frontier Science,明确将衡量重点放在AI是否能够在真实科研任务中持续工作、反复迭代;
美国甚至启动了号称「AI曼哈顿计划」的Genesis Mission,尝试将AI系统性地嵌入国家级科学研究体系之中。

这些探索路径虽不相同,却共同指向一个核心共识:
真正推动科学进步的AI,不是只会在竞赛中给出标准答案,而是能够在真实科研环境中,面对超长程科研任务时,经受长时间试错、不断自我演化,并在持续迭代中逐步演化出可靠能力。
正是在这样的背景下,AI4AI(AI for AI)逐渐成为一个至关重要的方向:
它既是AI参与科学研究的重要形态之一,更直接关系到AI能否通过自身实践推动能力增长,从而支撑更长期、更复杂的科研任务。
因而,OpenAI所提出的MLE-bench中所聚焦的机器学习工程(Machine Learning Engineering,MLE)任务,恰恰成为AI4AI场景下极为贴切的研究对象。
相比理想化的答题类型任务,真实的MLE科研往往需要在十几个甚至数十小时内,持续经历实验设计、代码实现、调试修正与结果分析等完整闭环,其过程高度依赖长期试错与经验积累。
这也使得MLE-bench成为少数能够真实反映AI是否具备长期科研演化能力的评测基准之一。

由上海交通大学人工智能学院、上海算法创新研究院、深势科技组成的SciMaster团队推出的面向真实机器学习科研任务的自主智能体ML-Master 2.0,就是这样一个专门为「机器学习工程」而生的AI4AI(AI for AI)系统。
结合EigenAI提供的稳定高性能AI基础设施,该智能体基于国产大模型DeepSeek-V3.2-Speciale,在MLE-bench上击败Google,Meta,Microsoft等团队构建的一系列智能体,取得全球第一的成绩。
更重要的是,它已经在多家科技公司与实验室中落地,用于具身智能机器人训练、理论物理模拟与发现等前沿场景。
这一结果不仅是一项榜单排名,更清晰地表明:
在面向真实科研任务、强调长期演化与工程闭环的自主智能体方向上,中国研究者已经具备与国际顶尖团队同台竞争、并实现领先突破的能力
0
好文章,需要你的鼓励
