6月16日消息,阿里巴巴高德地图AI团队(AmapAI)在X平台和GitHub发布了DreamX-World 1.0,定位为通用世界模型(World Model),主打1分钟长时长视频生成、实时交互控制、精确相机操控和多风格支持四项核心能力,并宣布即将开放Beta测试。目前技术报告标注为"coming soon",模型权重和完整代码尚未释出。
技术架构与训练方案
据项目官网介绍,DreamX-World的训练数据来源包括Unreal Engine合成数据、游戏画面录制和真实世界视频三类,通过相机姿态估计、数据过滤和分布调优进行预处理。训练流程采用渐进式设计,分为四个阶段:首先学习世界动态和精细动作控制,然后获取对开放式事件提示的响应能力,再通过强化学习增强动作跟随精度、交互一致性和视觉保真度,最后通过蒸馏实现高效推理。
在长序列一致性方面,DreamX-World引入了"世界记忆"机制——基于几何引导的记忆检索(geometry-guided memory retrieval),当相机重新访问之前观察过的区域时,系统会调用记忆帧来保持场景布局、物体身份和局部外观的一致性。官方演示中展示了"绕一圈回来场景保持完整"的效果。
官方演示视频约57秒,展示了赛博朋克城市、海滨小镇、火山岩石地貌、奇幻山川等多个场景的生成效果和相机运动控制,视觉质量较高。此外,模型同时支持第一人称沉浸视角和第三人称跟随视角的世界生成,后者对游戏场景和具身智能应用尤为重要。
高德在世界模型领域的积累
DreamX-World并非高德AI团队的首个世界模型项目。今年年初,高德基于自研世界模型FantasyWorld推出了"飞行街景"功能,据新浪科技报道,该功能已为全国100万家中小商户接入,用户可从城市视角平滑"飞入"街道和门店。高德AI团队此前还发布过具身智能模型ABot-M0,构建了包含600万轨迹、9500小时数据的开源异构数据集UniACT。从产品落地到基础研究,高德AI团队在空间智能方向已有持续投入。
竞争环境:世界模型赛道进入密集发布期
DreamX-World面对的是一个正在快速拥挤的赛道。6月4日,NVIDIA在台北GTC大会上发布了Cosmos 3,这是全球首个完全开源的全模态物理AI世界模型,集成了视觉推理、世界生成和动作预测三项能力,已在多个基准(Artificial Analysis、Physics-IQ、PAI-Bench等)排名第一。Google DeepMind的Genie 3主打实时交互式3D世界生成,李飞飞的World Labs推出了Marble,LeCun的AMI Labs获得了10亿美元级融资。国内方面,腾讯、蚂蚁也在密集开源世界模型相关工作。
需要注意的是,DreamX-World目前在几个关键维度上缺乏与竞品直接对比的依据。首先,技术报告尚未发布,模型参数量、训练数据规模、推理效率等核心指标均未披露。其次,官方页面没有提供任何基准测试成绩——在Cosmos 3、Genie 3都已有公开Benchmark数据的情况下,缺少量化对比使得"通用世界模型"的定位难以评估。
此外,"1分钟连续生成"和"实时交互"这两项核心卖点的具体含义也需要进一步澄清:1分钟是指生成1分钟时长的视频还是生成耗时1分钟?"实时交互"的延迟和帧率是多少?在什么硬件条件下实现?这些都需要等技术报告和Beta测试开放后才能验证。
从行业节奏看,世界模型目前被普遍类比为"2018-2019年的LLM阶段"——基础模型刚出现,杀手级应用尚未跑通。DreamX-World选择在这个时间点发布并承诺开源,对高德AI团队在空间智能领域的技术积累是一次集中展示,但其实际能力和行业位置仍需等待技术报告和开放测试来定义。
项目官网:https://amap-ml.github.io/DreamX_World/ GitHub:https://github.com/AMAP-ML/DreamX-World