MiniMax M2.5 登顶 OpenRouter：以 “实用主义” 破局 AI 模型竞争

2026-02-23 11:32

2026年2月，MiniMax发布的M2.5模型在OpenRouter平台强势登顶——发布7天调用量达破纪录的3.07T tokens，在100K-1M长文本（Agent核心消耗场景）任务中以20%的占比领跑，远超Kimi K2.5（18.5%）与Gemini 3 Flash Preview（4.9%）。

在SWE-bench Verified等主流评测中，其80.2%的得分与Claude Opus 4.6（80.8%）、Gemini 3.1 Pro（80.6%）差距不足1分，证明benchmark跑分已不再是模型竞争力的核心，而“解决真实场景问题”的实用能力成为开发者选择的关键。

一、核心优势：直击Agent时代的核心需求

M2.5的成功源于对“效果、价格、速度”不可能三角的精准平衡，所有优化均围绕Agent与编程场景的实际痛点展开：

1.部署友好：10B激活参数的“性价比甜点位”

模型规格：总参数230B，激活参数仅10B，是头部旗舰模型中私有化部署门槛最低的选择，无需高端算力即可落地；

全场景适配：支持PC、App、React Native、Flutter等全栈开发，可一次性交付前端+后端+数据库的完整项目，适配OpenClaw等Agent脚手架，自然语言可直接转化为电脑操作；

开源支持：2月13日全球开源，支持本地化部署，进一步降低开发者使用门槛。

2.成本碾压：重新定义Agent使用经济性

价格优势：输入0.3美元/百万Token、输出2.4美元/百万Token，仅为Claude主力模型价格的1/12，且价格稳定无波动；

极致低成本：按100 tokens/秒输出速度，连续工作1小时成本仅1美元；50 tokens/秒速度下成本低至0.3美元，1万美元可支持4个Agent连续工作一年，彻底打破Agent规模化部署的成本壁垒。

3.能力聚焦：死磕Coding与Agent核心场景

编程能力跻身第一梯队：SWE-Bench Verified得分80.2%，Multi-SWE-Bench（多语言复杂场景）得分51.3%，超越Claude Opus 4.6，具备“原生Spec行为”——编码前主动拆解架构、功能与UI设计，复刻真实架构师工作流程；

Agent与工具调用顶尖：在BrowseComp、Wide Search等Agent任务中，以更少轮次消耗取得更优效果，较上一代提升20%；办公场景中，GDPval-MM测评框架平均胜率达59.0%，适配Word、PPT、Excel金融建模等高阶需求；

长任务稳定性：引入Process Reward（过程奖励）机制，全链路监控任务质量，解决长上下文场景中“跑偏”问题，处理数据统计、复杂流程等繁琐任务时表现突出。

4.推理优化：效率与吞吐双突破

极速推理：M2.5-lightning版本支持100 TPS以上输出速度，是主流模型的2倍；8xH200 TEP8环境下，10-25s TTFT（首次响应时间）可稳定维持2500 tok/s/GPU吞吐；

工程化创新：采用Windowed FIFO平衡吞吐与稳定性，通过树状结构合并重复前缀，实现40倍训练加速，每一环优化均直指业务场景的效率压力。

5.技术创新：Forge RL框架实现泛化能力跃迁

M2.5的核心技术突破在于自研工业级Agent RL训练框架Forge，解决了传统模型与Agent“混为一谈”的训练痛点：

解耦设计：将Agent及环境与模型基础能力分离，通过中间层实现物理隔离与智能调度，避免相互干扰；

泛化适配：支持接入各类Agent框架训练，可适配见过或未见过的“脚手架”，大幅提升真实场景兼容性；

加速与优化：结合异步调度策略实现40倍训练加速，采用CISPO优化与过程奖励机制，平衡任务效果与响应速度，将“真实耗时”纳入奖励函数。

二、成功逻辑：从“内部痛点”到“行业刚需”

M2.5的研发思路源于MiniMax内部的真实需求——公司团队在搭建各类Agent解决业务问题时，发现现有模型无法平衡效果、价格与速度。因此，M系列模型的迭代始终以“解决自身痛点”为核心：

内部渗透率验证：M2.5已自主完成公司30%的整体任务，覆盖研发、产品、销售等多职能，新提交代码中80%由其生成；

快速迭代闭环：108天内从M2、M2.1迭代至M2.5，SWE-bench Verified成绩从69.4%飙升至80.2%，进步曲线行业领先；

资本市场认可：模型发布推动MiniMax股价累计涨幅超413%，市值突破2656亿港元，成为2026年港股AI板块领涨标的。

三、行业启示：AI模型竞争进入“实用主义”时代

M2.5的登顶标志着AI模型竞争的核心已从“刷榜跑分”转向“价值交付”：

跑分差距失效：头部模型在核心评测中得分差距不足1分，单纯靠榜单难以形成竞争力；

场景聚焦为王：放弃“全知全能”的泛化追求，聚焦Agent与编程等高频场景做深做透，反而更易获得开发者青睐；

成本成为关键变量：Agent规模化部署的核心瓶颈是成本，M2.5的低价策略彻底激活长文本、高频率的使用需求。

未来，模型的竞争力将更多取决于“是否能解决具体问题”——当技术差距逐渐缩小，像M2.5这样“懂开发者痛点、适配真实场景、控制使用成本”的实用型模型，将成为AI时代的核心赢家。

好文章，需要你的鼓励