蚂蚁集团开源发布全模态大模型Ming-Flash-Omni 2.0

2026-02-11 13:42

2月11日——蚂蚁集团今日正式开源其最新全模态大模型Ming-Flash-Omni 2.0，该模型在多项公开基准测试中表现出色，尤其在视觉语言理解、语音可控生成、图像生成与编辑等领域部分指标超越Gemini 2.5 Pro，成为开源全模态大模型的新性能标杆。

据介绍，Ming-Flash-Omni 2.0是业界首个全场景音频统一生成模型，能够在同一条音轨中同时生成语音、环境音效与音乐。用户仅需通过自然语言指令，即可精细控制音色、语速、语调、音量、情绪以及方言等多种参数，支持零样本音色克隆与定制功能。

这一突破性能力极大降低了音频内容创作的门槛，为影视配音、游戏音效、虚拟角色互动等场景提供高效解决方案。

在推理效率方面，模型实现了3.1Hz的极低推理帧率，支持分钟级长音频的实时高保真生成，在保持行业领先效率的同时显著控制计算成本。

该模型基于Ling-2.0架构（MoE结构，总参数100B，激活6B）训练，围绕“看得更准、听得更细、生成更稳”三大目标进行全面优化：

蚂蚁集团在全模态方向持续投入多年，Ming-Omni系列从早期统一多模态底座，到中期验证规模增长带来的能力提升，再到2.0版本通过更大规模数据与系统优化，将理解与生成能力推至开源领先水平，并在部分领域超越顶级专用模型。

此次开源意味着其核心能力以“可复用底座”形式对外释放，为端到端多模态应用开发提供统一能力入口。

好文章，需要你的鼓励