微软Mirage让视频世界模型提速10倍：直接在潜在空间存储3D记忆

2026-06-10 10:45

6月10日消息，据微软研究院与浙江大学联合发布，视频世界模型框架Mirage提出"潜在空间记忆"（Latent Spatial Memory）机制，将3D场景信息直接以潜在token形式持久化存储，彻底跳过传统方法中反复渲染RGB图像再重新编码的循环。在WorldScore基准上达到70.36的SOTA成绩，端到端视频生成速度提升10.57倍，3D缓存内存占用缩小55倍。论文已于arXiv公开（2606.09828），代码即将开源。

现有方案的核心瓶颈：RGB空间的往返代价

视频世界模型的核心挑战是在自回归生成过程中保持3D空间一致性——当虚拟摄像机重访此前生成过的场景时，画面不能出现遗忘或漂移。目前主流方案分两条路线。

一条是以Voyager（腾讯混元）、SPMem为代表的显式3D记忆方案。这类方法在RGB空间构建点云缓存，每生成一段新视频就将RGB-D帧投影为3D点云，重访时再将点云渲染回RGB图像、经VAE编码器压缩回潜在空间，供扩散模型使用。问题在于"RGB绕路"：每次读写缓存都要经历"潜在空间→像素空间→3D点云→像素空间→潜在空间"的完整往返。这个循环不仅计算开销大（重复渲染和编码），而且有损——经过像素空间的中转会丢失扩散模型潜在表征中的丰富特征信息。

另一条是隐式记忆方案，如Context-as-Memory和RTFM，用已标注位姿的历史帧作为记忆，依赖注意力机制检索。这种方式灵活但冗余度高，帧级别的记忆转换在有限上下文窗口下很快触及容量上限，且相机运动精度不足时容易累积漂移。

两条路线各有硬伤，而根源相同：3D几何信息与扩散模型的潜在表征之间存在表示鸿沟，现有方法只是在不同环节做了妥协。

Mirage的技术方案：潜在空间原生的3D记忆

Mirage的核心思路是把3D记忆直接建在扩散模型的潜在空间中，不再经过像素空间中转。整个框架围绕四个步骤运转：初始化（Initialize）、读取（Read）、去噪（Denoise）、更新（Write）。

初始化阶段，Mirage从初始观测帧出发，通过深度引导的反投影（depth-guided back-projection）将潜在token提升到3D空间，构建一个持久化的潜在缓存。这里的关键是操作全程在潜在空间完成——不需要先解码回RGB图像再做几何投影。

生成阶段，对于每个新的视频片段，系统先从缓存中读取目标视角对应的记忆（通过潜在空间中的直接变形/warping合成新视角），将这些记忆注入扩散去噪过程作为条件信息。生成完成后，再将新帧中的静态场景内容写回缓存，完成记忆更新。

这套"潜在空间原生"的设计带来两个直接收益。第一，消除了像素空间重建的信息损失，扩散模型学到的高维特征被完整保留。第二，跳过了反复的VAE编码/解码和点云渲染，计算量大幅下降。

实测数据：效率与质量双线拉升

在WorldScore基准测试中，Mirage平均得分70.36，达到当前公开方法中的最高水平。WorldScore由浙江大学团队提出（ICCV 2025），是目前世界生成领域唯一统一评估3D、4D与视频模型的基准，覆盖可控性、生成质量和3D一致性三个维度，包含2000个横跨室内外、写实与风格化场景的测试样本。作为参照，此前的代表性方案Voyager在该基准的Static子集上得分约66分。

效率数据更为突出。相对于显式3D记忆基线，Mirage端到端视频生成速度提升10.57倍，3D缓存内存占用缩小55倍。在RealEstate10K数据集（标准室内场景新视角合成基准）上也取得了有竞争力的重建质量。

竞品图谱与技术定位

视频世界模型正处于快速迭代期，过去半年密集涌现了多个代表性工作。

显式3D记忆阵营：腾讯混元Voyager系列从1.0迭代到2.0，基于点云缓存+平滑采样实现长程世界探索，是当前工程化程度最高的方案之一；FantasyWorld通过隐式3D表征避免静态先验失效，在大角度相机运动下表现更优。

隐式/压缩记忆阵营：LoViC的FlexFormer用自适应压缩比将任意长度上下文压缩为紧凑特征；MemFlow通过动态记忆库检索最相关的历史帧。

Mirage切入的是第三条路线——既保留了显式3D记忆的几何精确性（通过深度引导的3D提升），又获得了隐式方法的表征效率（全程在潜在空间操作）。这种"潜在空间原生3D"的路线在概念上更加干净，实测数据也验证了效率优势。

局限与开放问题

从论文公开信息看，Mirage目前主要针对静态场景的空间一致性进行了验证，动态物体（行人、车辆等随时间变化的元素）的处理能力尚不明确。此外，55倍内存缩减和10.57倍速度提升是相对于显式3D基线的数字，不同基线的绝对性能水平存在差异，直接与Voyager 2.0等最新方案的端到端对比数据尚未披露。代码标注为"Coming Soon"，可复现性还需等待后续开源。

研究团队来自浙江大学（第一作者王伟杰、赵昊宇）、微软亚洲研究院、阿德莱德大学和蒙纳士大学，通讯作者为浙江大学庄博翰教授。

项目地址：https://microsoft.github.io/LatentSpatialMemory/

好文章，需要你的鼓励