清华大学与英伟达联合发布 WorldString,用运动数据为物体构建动态数字孪生——不是静态 3D 模型,而是会随时间变化形态的"活模型"。核心创新是把物体的动态结构编码为一个紧凑的"字符串"标记(受弦理论启发),可高效重建和预测物体的形变、姿态变化。
单张 RTX 3090 即可训练和推理,无需超大规模算力集群,输入支持点云或 RGB-D 视频流,输出是可微分的数字孪生——可直接接入策略学习和神经动力学仿真。
从静态模型到"活模型":数字孪生的新思路
如果你让 AI 描述一把椅子,传统的 3D 模型会给出它的形状、材质、尺寸——但椅子会倒吗?会怎么倒?扶手的连接处能承受多大的力?这些动态信息,传统 3D 表示无法回答。
这个差距在 AI 领域被称作"物理世界建模的缺失"。大语言模型已经学会了调用人类知识做推理,但物理世界的建模还远远落后。原因很简单:现实世界中的物体不是静态的,它们会动、会变形、会与其他物体交互。椅子可以被推倒,布料可以折叠,门可以开关——这些动态是理解物理世界的基础。
清华大学与英伟达联合提出的 WorldString,就是要解决这个问题。它不是把一个物体拍成照片、建好模型就结束了,而是从物体的运动数据中学习——你看它怎么动,它就学会怎么动。
WorldString 是什么:一条"字符串"里的动态世界
项目的名字本身就暗示了它的核心思想。WorldString 的"String"受弦理论(string theory)启发——在物理学中,弦理论认为宇宙的基本组成不是点粒子,而是振动的弦。WorldString 借鉴了这个思路:物体最核心的表示不应该是一个静态的 3D 网格,而是一条"字符串"——一个紧凑的神经基元序列,编码了物体所有可能的运动状态。
具体来说,WorldString 做的事情可以分为三步:
第一步——采集运动数据。用 RGB-D 摄像头(同时采集彩色图像和深度信息)或点云扫描仪记录物体运动的过程。比如让一把椅子被推倒、让一件衣服从挂起到折叠、让一个机械臂执行不同轨迹。
第二步——学习状态流形。WorldString 从这些运动数据中学习物体的"状态流形"——一个数学上光滑的曲面,曲面上每个点对应物体在某个时刻的完整形态。就像人类理解了"折叠"这个概念后,能想象出一件衣服在任何折叠程度下的样子。
第三步——用字符串重建。学习完成后,物体的整个动态结构可以用一个紧凑的"字符串"标记来表示。给定任意时间点或任意运动参数,WorldString 可以从字符串中解码出物体在该时刻的精确形态。
为什么它比传统方法更优
当前处理物体运动的方法主要有两条路,但都有明显局限:
视频生成方向:用扩散模型或生成式 AI 生成物体运动的视频帧。问题是生成的视频不具有物理一致性——物体在帧之间的形变可能不连贯,而且无法与外部系统(如机器人控制)交互。
动态场景重建方向:用 NeRF 或 3D Gaussian Splatting 等技术重建动态场景。虽然精度高,但计算量大,且通常是针对"场景"整体建模,不是针对"单个物体"做可复用的表示。
WorldString 走的是第三条路——以物体为基本单位,把每个物体当作一个独立的、可复用的动态模型。这套方法的优势在于:
- 紧凑表示:整个物体的动态信息编码在一组紧凑的神经基元中,存储和传输效率高;
- 可微分:WorldString 的架构完全可微分,意味着它可以无缝接入神经网络——机器人策略学习、物理仿真都可以直接使用;
- 多模态输入:支持点云和 RGB-D 视频两种输入方式,适应不同硬件条件;
- 消费级算力:单张 RTX 3090 即可完成训练,不需要超大规模 GPU 集群;
在单张 RTX 3090 上运行
WorldString 在效率上的一个亮点是对算力的低要求。在 AI 研究越来越依赖千卡集群的今天,一个能在单张 RTX 3090(主流消费级显卡)上运行的数字孪生系统具有实际意义。
这意味着个人开发者、小型实验室也能复现和在此基础上做改进。代码已经开源在 GitHub 上,包含主模型仓库和数据生成工具两套代码:
主仓库:github.com/MaureenZOU/worldstring
数据生成:github.com/xkq1qkx/WorldString_data_gen
世界建模的基础积木
项目团队把 WorldString 定位为"物理世界模型的基础积木"。大语言模型有 token 作为基本处理单元,WorldString 想做的是:给物理世界建模提供类似的可复用的基本单元。
在这个框架下,每个物体都是一个 WorldString 表示,多个物体的 WorldString 可以组合成场景、可以互相交互、可以接入下游任务:
- 机器人操作:机械臂抓取之前,先通过 WorldString 理解物体的动态属性——它会怎么动、怎么变形、受力后怎么反应;
- 工业仿真:用真实物体的运动数据训练数字孪生,替代传统的物理建模流程;
- 具身智能:为 AI 提供可交互的物理世界理解能力;