MiniMax发布M2.5编程模型:你好 MiniMax M2.5!

2026-02-13 11:07
56
2月12日,MiniMax发布了最新旗舰编程模型M2.5,仅用10B激活参数就在编程和Agent能力上对标Claude Opus 4.6,每秒100 token连续跑一小时只需1美元。这款模型已在MiniMax Agent平台全面上线,并于2月13日全球开源。上线不到24小时,全球用户就构建了超过1万个专家Agent,这个速度挺让人意外的。


小身材,大能量

M2.5最打破常规的地方在于,当别人还在堆参数的时候,它反其道而行之。10B的激活参数量,是AI大模型第一梯队里规模最小的旗舰模型了。
但你别被这个数字骗了。在SWE-Bench Verified这个公认最难的代码修复测试里,M2.5拿到了80.2%的成绩。Multi-SWE-Bench中51.3%,BrowseComp搜索准确率76.3%。
更关键的是实战对比:
📊Droid框架下,M2.5得分79.7,Claude Opus 4.6是78.9
📊OpenCode框架里,M2.5跑出76.1,Claude Opus 4.6是75.9
这个10B的小个子,真就把那些参数量大得多的顶尖选手给比下去了。

像架构师一样写代码

M2.5跟前代最大的不同,不光是分数好看,而是它学会了"想清楚再动手"。
训练过程中冒出来个挺有意思的现象:写第一行代码之前,它会主动站在架构师的角度,把项目的功能、结构、UI设计先拆解规划一遍。这种"先写规格书,后写代码"的习惯,让它处理复杂项目的时候更像个老工程师,而不只是个代码补全工具。
🏗️训练规模方面,超过20万个真实环境,覆盖Go、Rust、Python、Java等10多种编程语言。
✨能力范围也够全面,从零开始的系统设计,到功能迭代、代码审查、系统测试,完整开发周期都能搞定。
它能处理Web、Android、iOS、Windows的全栈项目,包括服务端API、业务逻辑、数据库——可不只是写个前端页面那么简单。

不只是快,还更聪明

速度这块,M2.5确实有两把刷子。
Lightning版本支持每秒100+token的输出,大概是其他前沿模型的两倍速度。跑完SWE-Bench Verified任务的平均时间从31.3分钟压到22.8分钟,提升37%。这速度跟Claude Opus 4.6持平,但单任务成本只有人家的十分之一。

不过快不是重点,聪明才是。跟前代M2.1比,M2.5解决同类Agent任务时用的轮次少了约20%。它不再只是找对答案就完事,而是学会了走更短的路。

价格屠夫:1万美元跑4个Agent一整年

M2.5有两个版本可选:
M2.5-Lightning:每秒100 token,输入0.3美元/百万token,输出2.4美元/百万token
M2.5标准版:每秒50 token,价格减半
你算算账就知道了:Lightning版本每秒100 token连续跑一小时,只烧1美元。降到50 token/秒的话,才0.3美元。
这意味着1万美元能让4个M2.5实例不停歇地跑满一整年。
对比一下就更明显,M2.5的输出价格只有Claude Opus、Gemini 3 Pro、GPT-5的十分之一到二十分之一。成本这个门槛一降,Agent大规模部署的商业玩法就彻底不一样了。

背后的秘密武器:强化学习规模化

M2.5的进步不是靠堆参数堆出来的,靠的是强化学习的规模化训练。
MiniMax自己搞了套叫Forge的Agent原生强化学习框架。这框架把底层训练引擎跟Agent完全解耦,支持任意Agent接入,通过优化异步调度和树状样本合并策略,训练速度直接加速了约40倍。
算法层面用了CISPO优化算法保证MoE模型在大规模训练中的稳定性,还引入过程奖励机制来解决长上下文里的信用分配问题。
从去年10月到现在,M2系列已经迭代了三次,在SWE-Bench Verified上的进步速度明显比Claude、GPT、Gemini系列快。

已经在"上班"了

M2.5不是实验室里的样品,它已经在MiniMax内部干活了。
现在M2.5承担着公司日常运营30%的任务量,研发、产品、销售、HR、财务都在用。编码这块更夸张,M2.5写的代码占到了新提交代码量的80%。
在MiniMax Agent平台上,M2.5被封装成标准化的Office技能。处理Word格式化、PPT编辑、Excel计算这些活儿时,Agent会自动调用对应技能。你还能结合行业SOP定制专属的领域专家,比如自动生成符合格式的行业研报,或者按特定风控逻辑搭建金融模型。
M2.5目前已在MiniMax Agent上线,支持全球开源和本地化部署。API已经向部分企业客户开放,计划2026年第二季度在开发者平台全面推出。这个性价比和实战能力,确实给Agent应用的普及打开了不少想象空间。
0
好文章,需要你的鼓励