高德AI团队发布DreamX-World 1.0：主打1分钟可交互世界生成

2026-06-16 11:58

6月16日消息，阿里巴巴高德地图AI团队（AmapAI）在X平台和GitHub发布了DreamX-World 1.0，定位为通用世界模型（World Model），主打1分钟长时长视频生成、实时交互控制、精确相机操控和多风格支持四项核心能力，并宣布即将开放Beta测试。目前技术报告标注为"coming soon"，模型权重和完整代码尚未释出。

技术架构与训练方案

据项目官网介绍，DreamX-World的训练数据来源包括Unreal Engine合成数据、游戏画面录制和真实世界视频三类，通过相机姿态估计、数据过滤和分布调优进行预处理。训练流程采用渐进式设计，分为四个阶段：首先学习世界动态和精细动作控制，然后获取对开放式事件提示的响应能力，再通过强化学习增强动作跟随精度、交互一致性和视觉保真度，最后通过蒸馏实现高效推理。

在长序列一致性方面，DreamX-World引入了"世界记忆"机制——基于几何引导的记忆检索（geometry-guided memory retrieval），当相机重新访问之前观察过的区域时，系统会调用记忆帧来保持场景布局、物体身份和局部外观的一致性。官方演示中展示了"绕一圈回来场景保持完整"的效果。

官方演示视频约57秒，展示了赛博朋克城市、海滨小镇、火山岩石地貌、奇幻山川等多个场景的生成效果和相机运动控制，视觉质量较高。此外，模型同时支持第一人称沉浸视角和第三人称跟随视角的世界生成，后者对游戏场景和具身智能应用尤为重要。

高德在世界模型领域的积累

DreamX-World并非高德AI团队的首个世界模型项目。今年年初，高德基于自研世界模型FantasyWorld推出了"飞行街景"功能，据新浪科技报道，该功能已为全国100万家中小商户接入，用户可从城市视角平滑"飞入"街道和门店。高德AI团队此前还发布过具身智能模型ABot-M0，构建了包含600万轨迹、9500小时数据的开源异构数据集UniACT。从产品落地到基础研究，高德AI团队在空间智能方向已有持续投入。

竞争环境：世界模型赛道进入密集发布期

DreamX-World面对的是一个正在快速拥挤的赛道。6月4日，NVIDIA在台北GTC大会上发布了Cosmos 3，这是全球首个完全开源的全模态物理AI世界模型，集成了视觉推理、世界生成和动作预测三项能力，已在多个基准（Artificial Analysis、Physics-IQ、PAI-Bench等）排名第一。Google DeepMind的Genie 3主打实时交互式3D世界生成，李飞飞的World Labs推出了Marble，LeCun的AMI Labs获得了10亿美元级融资。国内方面，腾讯、蚂蚁也在密集开源世界模型相关工作。

需要注意的是，DreamX-World目前在几个关键维度上缺乏与竞品直接对比的依据。首先，技术报告尚未发布，模型参数量、训练数据规模、推理效率等核心指标均未披露。其次，官方页面没有提供任何基准测试成绩——在Cosmos 3、Genie 3都已有公开Benchmark数据的情况下，缺少量化对比使得"通用世界模型"的定位难以评估。

此外，"1分钟连续生成"和"实时交互"这两项核心卖点的具体含义也需要进一步澄清：1分钟是指生成1分钟时长的视频还是生成耗时1分钟？"实时交互"的延迟和帧率是多少？在什么硬件条件下实现？这些都需要等技术报告和Beta测试开放后才能验证。

从行业节奏看，世界模型目前被普遍类比为"2018-2019年的LLM阶段"——基础模型刚出现，杀手级应用尚未跑通。DreamX-World选择在这个时间点发布并承诺开源，对高德AI团队在空间智能领域的技术积累是一次集中展示，但其实际能力和行业位置仍需等待技术报告和开放测试来定义。

项目官网：https://amap-ml.github.io/DreamX_World/ GitHub：https://github.com/AMAP-ML/DreamX-World

好文章，需要你的鼓励