2026 年第八届北京智源大会正式启幕,作为全球人工智能创新风向标,本届大会汇聚了 30 多个国家的顶尖学者与产业力量,核心聚焦下一代 AI 技术方向。
智源研究院在会上系统梳理世界模型技术路线,发布多项原创技术成果,正式明确从 “预测下一个 Token” 到 “预测下一个物理状态” 的范式跃迁方向,为行业树立了通往物理世界通用人工智能的清晰路标。
一、厘清技术脉络:四大分类定义世界模型发展路线
世界模型被公认为大语言模型之后 AI 领域最具变革性的战略机遇,是通向物理 AGI 的必由之路,但当前行业技术路线分散、尚未形成统一认知。
智源研究院院长王仲远在会上将现有世界模型技术路线划分为四大类:
一是以语言为中心的 VLM、VLA 类模型,仅能理解语言描述的世界,无法掌握物理规律;
二是以像素为中心的视频生成类模型,如 Sora,仅学习视觉层面的像素演化;
三是以三维结构为中心的重建类模型,几何构建不等于对物理规则的理解;
四是以视觉表征为中心的模型,如 JEPA 系列,表征压缩无法等同于物理规律演化。
针对行业痛点,智源推出全球首款通用世界基座模型悟界・Physis-v0.1,以及具身大脑悟界・RoboBrain Orca。
前者以物理隐空间表征替代传统像素预测,支持 50 + 复杂物理场景长程推理,具备物理一致性、因果性、泛化性四大核心能力;后者实现从 “预测下一动作” 到 “预测下一物理状态” 的升级,打造 “认知 — 预测 — 行动” 完整闭环,支撑机器人在真实场景中长期自主作业。
二、完成技术跃迁:从悟道到悟界构建全栈技术体系
智源研究院已构建起从语言大模型到世界模型的完整技术演进路径。2021 年推出的悟道系列让 AI “学会语言”,2024 年起的悟界系列则推动 AI “理解世界”。
其中悟界・Emu3 作为全球首个原生多模态世界模型,于 2026 年登上《Nature》正刊,是我国科研机构主导的大模型成果首次获该学术认可;升级后的 Emu3.5 实现跨视觉与语言序列的 “下一状态预测”,攻克了生成内容违背物理规则的行业痛点。
垂直领域,智源同步落地多项突破性成果。悟界・Brainμ1.0 是全球首个理解与生成统一的多模态神经科学大模型,可将跨物种、多模态脑信号统一编码为标准 Token,辅助阿尔兹海默症等神经疾病筛查,相关成果已支撑研究登上《Science》。
悟界・OpenComplex2.5 则聚焦药物研发,通过全原子分布建模攻克固有无序蛋白动态构象解析难题,覆盖药物研发从靶点识别到亲和力预测的全流程,为神经退行性疾病等难成药靶点研究提供新路径。
三、落地产业场景:智能体矩阵释放真实生产力
如果说世界模型为 AI 赋予了 “认知大脑”,智能体则让 AI 长出了 “执行手脚”。
本届大会上,智源展示了覆盖多领域的智能体矩阵,推动 AI 从内容生成工具升级为可信赖的数字化生产力。
医疗领域,BAAI Cardiac Agent 是全球首个心脏磁共振辅助诊断智能体,依托安贞医院临床数据,诊断精度 AUC 超 0.93,达到顶尖心血管医生水平,可一站式完成影像分割、功能评估与报告生成。
科研领域,AREX 自主研究智能体可覆盖文献调研、实验设计、结果论证全流程,推动 AI 从模仿学习向自主科学发现跨越。
个人场景,SoulAgent 专属智能体实现 Token 成本降低 30%、资源占用减少 80%,可基于用户画像持续自进化,打造高私密、个性化的专属数字助手。
生物安全领域,智源还推出风险发现智能体,首次打通计算机模拟与真实实验的干湿闭环,将生物安全防控从事后补救转向事前演练。
四、凝聚全球共识:共探 AI 未来发展图景
本届智源大会汇聚了全球顶尖学术与产业力量,两位图灵奖得主带来了前沿观点。
Whitfield Diffie 聚焦 AI 智能体安全,提出当前控制论式的被动修复存在局限,未来应发展形式化方法提升系统可靠性,同时强化智能体的访问权限管控。
Andrew Barto 则重新解读强化学习,指出其本质是控制、搜索与联想记忆的三位一体,深度强化学习与脑科学成果的结合,将成为下一代 AI 进展的核心方向。
在产业圆桌环节,来自清华大学、小米、面壁智能等机构的领军者共同指出,超级模型与智能体系统正持续释放势能,自进化将成为智能跃迁的新引擎,多模态与世界模型的成熟,将推动 AI 彻底从数字空间走向物理世界。同时行业也应关注人才培养,为青年研究者创造更广阔的探索空间,支撑 AI 技术长期健康发展。
整体来看,本届智源大会不仅为世界模型领域厘清了技术路线,更展示了中国 AI 从跟随验证走向原创引领的转变。随着世界模型技术的持续迭代,AI 将深度融入物理世界的各个场景,推动生产生活方式的全新变革。