MiniMax发布M2.1模型，编码与代理能力大幅提升

2025-12-23 15:15

149

MiniMax一直在用更加AI原生的方式改造自己。这个过程的核心驱动力是模型、Agent脚手架和组织。在探索过程中，我们对上述三点也有了越来越深刻的认知。今天我们开放模型部分的更新，也就是MiniMax M2.1，希望有机会能帮助到更多的企业和个人早日找到更AI原生的工作与生活方式。

在10月底的M2中，主要解决了模型成本和模型开放性的问题。

在M2.1中，提升了真实世界复杂任务中的表现：重点聚焦于更多编程语言和办公场景的可用性，并在这个领域做到最好的水平。

MiniMax M2.1具体模型亮点如下：

卓越多编程语言能力：在M2.1中，系统性提升了Rust/Java/Golang/C++/Kotlin/Objective-C/TypeScript/JavaScript等语言的能力，多语言任务整体表现达到业内领先水平，覆盖从底层系统到应用层开发的完整链路。

WebDev与AppDev：针对业界普遍存在的移动端开发短板，M2.1显著加强了原生Android/iOS开发能力。同时，我们系统性提升了模型在Web与App场景中的设计理解与美学表达能力，能够出色地构建复杂交互、3D科学场景模拟与高质量可视化表达，推动vibe coding成为可持续、可交付的生产实践。

复合指令约束提升，办公场景变为可能：作为开源模型中率先系统性引入Interleaved Thinking的模型系列，M2.1 systematic problem-solving能力再次升级。模型不仅关注代码执行是否正确，同时关注模型对“复合指令约束”的整合执行能力，在真实办公场景具备更高的可用性。

更简洁高效的回复：相比M2，MiniMax M2.1的模型回复以及思维链更加简洁，在实际编程与交互体验中，响应速度显著提升，Token消耗明显下降，在AI Coding与Agent驱动的连续工作流中更加流畅和高效。

出色的Agent/工具脚手架泛化能力：M2.1在各类编程工具与Agent框架中均有出色表现。在Claude Code、Droid（Factory AI）、Cline、Kilo Code、Roo Code、BlackBox等工具中展现一致且稳定的效果，并对Skill.md、Claude.md/agent.md/cursorrule、Slash Command等Context Management机制提供可靠支持。

高质量对话和写作：M2.1不再只是“代码能力更强”，在日常对话、技术说明与写作场景中，也能提供更具细节与结构性的回答。

在软件工程相关场景的核心榜单上，MiniMax M2.1相比于M2有了显著的提升，尤其是在多语言场景上，超过Claude Sonnet 4.5和Gemini 3 Pro，并接近Claude Opus 4.5。

在不同coding agent框架上测试了SWE-bench Verified，结果表明MiniMax M2.1具有良好的框架泛化性和稳定的表现。而在公开的测试用例生成、代码性能优化，以及自建的代码审阅（SWE-Review）、指令遵从（OctoCodingBench）等细分场景的榜单上，MiniMax M2.1相比M2都表现出了全面的提升，持平或超过Claude Sonnet 4.5。

为了衡量模型“从零到一”构建完整、可运行应用程序的全栈能力，构建并开源了全新基准VIBE(Visual&Interactive Benchmark for Execution in Application Development)，涵盖了Web、仿真(Simulation)、Android、iOS及后端(Backend)五大核心子集。不同于传统基准，通过创新的Agent-as-a-Verifier(AaaV)范式，VIBE能够自动评估生成的Application在真实运行环境中的交互逻辑与视觉美感。这个评测集稍后将在Github上开源。

VIBE：https://huggingface.co/datasets/MiniMaxAI/VIBE

MiniMax-M2.1在VIBE综合榜单中表现卓越，以平均88.6分的成绩展现了接近Claude Opus 4.5的全栈构建能力，并在几乎所有子集上都显著优于Claude Sonnet 4.5。

在办公场景、长程工具调用和综合智能指数上，MiniMax M2.1相比M2也表现出稳步提升，体现了模型解决更多真实世界复杂任务的能力。

好文章，需要你的鼓励