智源研究院Emu3成中国首个登上Nature主刊的多模态大模型

2026-02-03 15:00
102
1月29日,智源研究院的"悟界·Emu"多模态大模型登上Nature正刊,成为继DeepSeek后第二个拿到这个荣誉的中国大模型团队,也是国内首篇专门研究多模态大模型路线的Nature论文。这标志着中国在AI领域的技术路线探索,已经开始引领全球方向。

Nature编辑给出的评价挺有意思:"Emu3仅靠'预测下一个token'就搞定了文本、图像和视频的统一学习,性能还能跟那些专门优化的模型打个平手。这对构建可扩展的统一多模态系统意义重大,没准能推动原生多模态助手、世界模型和具身智能这些方向的发展。"

"简单"路线的不简单

你可能会觉得,"预测下一个token"这事儿听起来太基础了。但恰恰是这种看似朴素的方法,藏着大智慧。
Emu3是智源在2024年10月推出的,它的表现确实挺能打。图像生成在MSCOCO-30K23这些基准测试上干过了SDXL这类扩散模型;视频生成VBench评分81,比Open-Sora 1.2还高一截;视觉语言理解得了62.1分,比LLaVA-1.6略强。
放现在看这成绩可能没啥特别,但要知道这是两年前的水平。当时前OpenAI政策主管、现在Anthropic联合创始人杰克·克拉克就评价说:"不玩那些花里胡哨的架构技巧,就用最基础的预测下一个token逻辑,这种'简单'反而意味着强大的扩展潜力。"
智源研究院院长王仲远跟智东西聊天时说得更直白:"越是极简的架构,可能越有生产力,对产业的价值也越大。它把多模态AI架构简化了,减少了研发过程中各种复杂问题和潜在bug,模型搭建和维护都更高效。"
换句话说,这条路线最大的价值不在于跑分多高,而在于降低了整个行业的研发门槛和成本。你不需要为图像、视频、文本分别设计一套复杂架构,一个统一的自回归框架就能搞定。

从多模态到世界模型

到2025年10月,"悟界·Emu"系列又迭代出了多模态世界模型。Emu3.5的能力进化得有点夸张——它能理解长时序、空间一致的序列,甚至可以模拟在虚拟世界里的探索和操作。
这次它不光在性能上超越了谷歌Nano Banana这些模型,拿下多模态SOTA,更关键的是首次明确提出了"多模态Scaling范式"。这意味着什么呢?模型可以自己琢磨出世界演变的内在规律,不需要人类手把手教它物理定律是啥。
这对具身智能这类需要理解物理世界的AI来说,简直是开了一扇新门。想象一下,机器人不再需要针对每个任务专门训练,而是能通过对世界的理解,自己摸索出解决问题的方法。


技术路线之争的新答案

说实话,这两年AI圈关于技术路线的争论一直没停过。扩散模型、专用架构、混合方案……各家都在押注自己认为对的方向。
Emu3的Nature论文,某种程度上给出了一个新答案:统一的自回归路线不仅可行,而且可能更具长期价值。它证明了你不需要为每种模态单独设计复杂机制,一个简洁的框架就能做到"既要、又要、还要"。
从DeepSeek到Emu3,中国AI团队正在用实际成果告诉世界:技术创新不一定非得堆砌复杂度,有时候返璞归真的路线,反而能走得更远。当"简单"的架构开始展现出强大的扩展性和实用价值,这或许才是真正值得关注的范式转变。
0
好文章,需要你的鼓励