MiniMax M3 实测：硅谷大佬鼎力背书，国产开源大模型跻身全球第一梯队

2026-06-04 20:51

一、海内外口碑分化，定价争议落地妥善补偿

MiniMax M3 上线后呈现两极口碑：海外收获行业大佬认可，Vercel CEO 公开发文推荐，该模型登顶 Next Agent 开源评测榜单，综合实力紧随 Opus、GPT-5，定价仅为海外旗舰产品 1/10，AI Gateway 限时折扣后成本再降；

反观国内，初期因 Token 计费规则调整引发老用户权益争议，社区讨论火热。

面对舆情，MiniMax 官方迅速出台补救方案，老用户维持原有额度不变，新用户周使用额度加赠 50%，顺利化解价格风波。海外开发者聚焦模型底层架构、落地表现，通过多组盲测验证真实能力。

大量海内外开发者开展盲测与极限实操：

动画生成盲测中 M3 作品质感优于 Claude、Opus；Three.js 复刻《我的世界》项目，代码落地效果和 Opus 高度贴近；

国内开发者依托 M3 完成手势对战小游戏，整体 Token 消耗仅为 Sonnet 的 20%。

实测两大高难度任务：其一拆解 50 页 DeepSeek 技术白皮书，精准梳理 DualPipe 底层调度逻辑；

其二解析 1.15GB 英伟达 GTC 完整演讲视频，自主调用 ffmpeg 拆分素材，40 分钟产出 3500 字深度行业稿件；此外 M3 可识别多格式评测图表，自动归一数据生成交互式模型对比大屏，落地能力经过实战检验。

M3 能实现超强表现依托三大自研技术：

一是 MSA 稀疏注意力架构，百万上下文下单 Token 计算量降至前代 1/20，预填充提速 9 倍、解码提速 15 倍，攻克长文本算力瓶颈；

二是全链路原生多模态训练，从预训练阶段融合图文视频交错数据，重建数据管线，预训练数据达 100 万亿 Token；

三是全栈 Agent 优化，适配复杂工程任务。从榜单数据看，GPQA 科学推理达 93.2% 位列全球第四，Vals 多模态榜单第六，多项指标超越 Claude Sonnet，跻身全球大模型第一梯队开源席位。

M3 配套 MiniMax Code 独创三角色 Agent 团队机制：Leader 负责任务拆解统筹、Worker 落地具体开发、Verifier 专职验收纠错，依靠状态机管控任务流程，解决传统 AI 半途终止、逻辑跑偏痛点，支持多 Worker 并行处理新增需求。

官方透露，M3 完整权重与技术报告将于 10 日内开源，开放后全球开发者可基于权重二次微调、落地行业应用，进一步拉高国产大模型全球影响力。

好文章，需要你的鼓励