小米发布MiMo-V2-Flash,开源推理模型新标杆

2025-12-23 10:57
136
小米推出MiMo-V2-Flash模型,采用MoE架构(309B总参数/15B活跃参数),支持256K上下文。该模型在SWE-Bench上击败Claude Sonnet 4.5,AIME 2025得分94%,推理速度达150 tokens/s。已通过相关API上线,被誉为2025年最佳开源推理模型之一。


核心亮点:能力、速度、成本全面在线

Agent能力亮眼
在Agentic Coding、Tool Use等核心场景表现突出,公开基准测试中可对齐DeepSeek-V3.2,支持深度思考与联网搜索,能适配开发、自动化工具调用等实际需求;256K超长上下文窗口,可轻松处理长文档任务。
速度成本双优
推理速度达150 tokens/秒,响应高效;使用成本极具竞争力,每百万token输入仅0.1美元、输出0.3美元,大幅降低规模化应用门槛。
技术架构创新
采用“5层滑动窗口+1层全局注意力”混合机制,KV缓存存储量减少近6倍,长文本能力不受影响;开源3-Layer MTP技术,编码场景推理速度提升2.5倍。
训练体系扎实
基于27T tokens预训练,支持FP8混合精度;后训练覆盖10万个真实GitHub可验证任务,通过多教师在线策略蒸馏(MOPD)提升模型可靠性,Kubernetes集群支持万级Pod并发训练。

短板与适配场景

短板:写作、高难度推理能力略弱于DeepSeek-V3.2;后训练环境部署成功率70%,需一定技术调试成本。
适配人群:中小团队、开发者用于Agent应用开发(智能工具、自动化流程)、长文本处理、批量代码生成等场景;适合追求高性价比、需规模化落地AI能力的用户。
0
好文章,需要你的鼓励