6月10日消息,据微软研究院与浙江大学联合发布,视频世界模型框架Mirage提出"潜在空间记忆"(Latent Spatial Memory)机制,将3D场景信息直接以潜在token形式持久化存储,彻底跳过传统方法中反复渲染RGB图像再重新编码的循环。在WorldScore基准上达到70.36的SOTA成绩,端到端视频生成速度提升10.57倍,3D缓存内存占用缩小55倍。论文已于arXiv公开(2606.09828),代码即将开源。
现有方案的核心瓶颈:RGB空间的往返代价
视频世界模型的核心挑战是在自回归生成过程中保持3D空间一致性——当虚拟摄像机重访此前生成过的场景时,画面不能出现遗忘或漂移。目前主流方案分两条路线。
一条是以Voyager(腾讯混元)、SPMem为代表的显式3D记忆方案。这类方法在RGB空间构建点云缓存,每生成一段新视频就将RGB-D帧投影为3D点云,重访时再将点云渲染回RGB图像、经VAE编码器压缩回潜在空间,供扩散模型使用。问题在于"RGB绕路":每次读写缓存都要经历"潜在空间→像素空间→3D点云→像素空间→潜在空间"的完整往返。这个循环不仅计算开销大(重复渲染和编码),而且有损——经过像素空间的中转会丢失扩散模型潜在表征中的丰富特征信息。
另一条是隐式记忆方案,如Context-as-Memory和RTFM,用已标注位姿的历史帧作为记忆,依赖注意力机制检索。这种方式灵活但冗余度高,帧级别的记忆转换在有限上下文窗口下很快触及容量上限,且相机运动精度不足时容易累积漂移。
两条路线各有硬伤,而根源相同:3D几何信息与扩散模型的潜在表征之间存在表示鸿沟,现有方法只是在不同环节做了妥协。
Mirage的技术方案:潜在空间原生的3D记忆
Mirage的核心思路是把3D记忆直接建在扩散模型的潜在空间中,不再经过像素空间中转。整个框架围绕四个步骤运转:初始化(Initialize)、读取(Read)、去噪(Denoise)、更新(Write)。
初始化阶段,Mirage从初始观测帧出发,通过深度引导的反投影(depth-guided back-projection)将潜在token提升到3D空间,构建一个持久化的潜在缓存。这里的关键是操作全程在潜在空间完成——不需要先解码回RGB图像再做几何投影。
生成阶段,对于每个新的视频片段,系统先从缓存中读取目标视角对应的记忆(通过潜在空间中的直接变形/warping合成新视角),将这些记忆注入扩散去噪过程作为条件信息。生成完成后,再将新帧中的静态场景内容写回缓存,完成记忆更新。
这套"潜在空间原生"的设计带来两个直接收益。第一,消除了像素空间重建的信息损失,扩散模型学到的高维特征被完整保留。第二,跳过了反复的VAE编码/解码和点云渲染,计算量大幅下降。
实测数据:效率与质量双线拉升
在WorldScore基准测试中,Mirage平均得分70.36,达到当前公开方法中的最高水平。WorldScore由浙江大学团队提出(ICCV 2025),是目前世界生成领域唯一统一评估3D、4D与视频模型的基准,覆盖可控性、生成质量和3D一致性三个维度,包含2000个横跨室内外、写实与风格化场景的测试样本。作为参照,此前的代表性方案Voyager在该基准的Static子集上得分约66分。
效率数据更为突出。相对于显式3D记忆基线,Mirage端到端视频生成速度提升10.57倍,3D缓存内存占用缩小55倍。在RealEstate10K数据集(标准室内场景新视角合成基准)上也取得了有竞争力的重建质量。
竞品图谱与技术定位
视频世界模型正处于快速迭代期,过去半年密集涌现了多个代表性工作。
显式3D记忆阵营:腾讯混元Voyager系列从1.0迭代到2.0,基于点云缓存+平滑采样实现长程世界探索,是当前工程化程度最高的方案之一;FantasyWorld通过隐式3D表征避免静态先验失效,在大角度相机运动下表现更优。
隐式/压缩记忆阵营:LoViC的FlexFormer用自适应压缩比将任意长度上下文压缩为紧凑特征;MemFlow通过动态记忆库检索最相关的历史帧。
Mirage切入的是第三条路线——既保留了显式3D记忆的几何精确性(通过深度引导的3D提升),又获得了隐式方法的表征效率(全程在潜在空间操作)。这种"潜在空间原生3D"的路线在概念上更加干净,实测数据也验证了效率优势。
局限与开放问题
从论文公开信息看,Mirage目前主要针对静态场景的空间一致性进行了验证,动态物体(行人、车辆等随时间变化的元素)的处理能力尚不明确。此外,55倍内存缩减和10.57倍速度提升是相对于显式3D基线的数字,不同基线的绝对性能水平存在差异,直接与Voyager 2.0等最新方案的端到端对比数据尚未披露。代码标注为"Coming Soon",可复现性还需等待后续开源。
研究团队来自浙江大学(第一作者王伟杰、赵昊宇)、微软亚洲研究院、阿德莱德大学和蒙纳士大学,通讯作者为浙江大学庄博翰教授。