国内的AI大模型发展到哪一步了?SpatialDreamer空间推理能力大幅提升

2025-12-22 21:04
139
尽管多模态大语言模型(MLLMs)看图说话能力一流,但和人类相比,在需要“脑补”和“想象”的复杂空间推理任务上还是有很大差距。
现有方法多依赖于对空间数据的被动观察,缺乏人类在空间认知中特有的主动想象与动态更新内部表征的能力。
想象一下这个场景:你看了一眼房间,然后闭上眼睛,有人问你“从沙发的位置向左转90度,会看到什么?”我们人类可以毫不费力地在脑海中构建出虚拟的画面并回答。但对于模型来说,这几乎是不可能的,因为它们依赖的是静态的、单一视角的观察。
为此,来自MBZUAI与中山大学的研究团队提出了SpatialDreamer,一个基于强化学习的框架,旨在通过主动探索、视觉想象与证据融合的闭环过程,赋予MLLMs类人的空间心理模拟能力。

SpatialDreamer模拟人类的空间认知过程,构建了一个包含以下三个步骤的闭环推理流程:
1)探索:模型根据当前场景推理出最优的自我中心动作(如「前进0.75米」或「左转45度」);
2)想象:调用世界模型(如SVC)生成执行动作后的新视角图像;
3)推理:整合所有累积的视觉证据,生成最终答案。
该过程使模型从「被动观察」转向「主动目标导向的想象」,实现了在内部三维环境中自主决定「去哪看、看什么、如何推理」。
为解决长序列推理任务中奖励稀疏的问题,研究团队提出了GeoPO,一种结合树状采样结构与几何一致性约束的策略优化方法:
1)树状采样:每步采样多个动作分支,支持回溯与多路径探索;
2)多级奖励设计:融合任务级奖励与步级奖励,提供细粒度反馈;
3)几何惩罚机制:对冗余或冲突动作(如连续同向或反向移动)施加惩罚系数(如0.9),鼓励高效轨迹生成。
0
好文章,需要你的鼓励