清华英伟达联合发布 WorldString：一条字符串学会物体的所有姿势

2026-06-12 18:09

清华大学与英伟达联合发布 WorldString，用运动数据为物体构建动态数字孪生——不是静态 3D 模型，而是会随时间变化形态的"活模型"。核心创新是把物体的动态结构编码为一个紧凑的"字符串"标记（受弦理论启发），可高效重建和预测物体的形变、姿态变化。

单张 RTX 3090 即可训练和推理，无需超大规模算力集群，输入支持点云或 RGB-D 视频流，输出是可微分的数字孪生——可直接接入策略学习和神经动力学仿真。

从静态模型到"活模型"：数字孪生的新思路

如果你让 AI 描述一把椅子，传统的 3D 模型会给出它的形状、材质、尺寸——但椅子会倒吗？会怎么倒？扶手的连接处能承受多大的力？这些动态信息，传统 3D 表示无法回答。

这个差距在 AI 领域被称作"物理世界建模的缺失"。大语言模型已经学会了调用人类知识做推理，但物理世界的建模还远远落后。原因很简单：现实世界中的物体不是静态的，它们会动、会变形、会与其他物体交互。椅子可以被推倒，布料可以折叠，门可以开关——这些动态是理解物理世界的基础。

清华大学与英伟达联合提出的 WorldString，就是要解决这个问题。它不是把一个物体拍成照片、建好模型就结束了，而是从物体的运动数据中学习——你看它怎么动，它就学会怎么动。

WorldString 是什么：一条"字符串"里的动态世界

项目的名字本身就暗示了它的核心思想。WorldString 的"String"受弦理论（string theory）启发——在物理学中，弦理论认为宇宙的基本组成不是点粒子，而是振动的弦。WorldString 借鉴了这个思路：物体最核心的表示不应该是一个静态的 3D 网格，而是一条"字符串"——一个紧凑的神经基元序列，编码了物体所有可能的运动状态。

具体来说，WorldString 做的事情可以分为三步：

第一步——采集运动数据。用 RGB-D 摄像头（同时采集彩色图像和深度信息）或点云扫描仪记录物体运动的过程。比如让一把椅子被推倒、让一件衣服从挂起到折叠、让一个机械臂执行不同轨迹。

第二步——学习状态流形。WorldString 从这些运动数据中学习物体的"状态流形"——一个数学上光滑的曲面，曲面上每个点对应物体在某个时刻的完整形态。就像人类理解了"折叠"这个概念后，能想象出一件衣服在任何折叠程度下的样子。

第三步——用字符串重建。学习完成后，物体的整个动态结构可以用一个紧凑的"字符串"标记来表示。给定任意时间点或任意运动参数，WorldString 可以从字符串中解码出物体在该时刻的精确形态。

为什么它比传统方法更优

当前处理物体运动的方法主要有两条路，但都有明显局限：

视频生成方向：用扩散模型或生成式 AI 生成物体运动的视频帧。问题是生成的视频不具有物理一致性——物体在帧之间的形变可能不连贯，而且无法与外部系统（如机器人控制）交互。

动态场景重建方向：用 NeRF 或 3D Gaussian Splatting 等技术重建动态场景。虽然精度高，但计算量大，且通常是针对"场景"整体建模，不是针对"单个物体"做可复用的表示。

WorldString 走的是第三条路——以物体为基本单位，把每个物体当作一个独立的、可复用的动态模型。这套方法的优势在于：

紧凑表示：整个物体的动态信息编码在一组紧凑的神经基元中，存储和传输效率高；

可微分：WorldString 的架构完全可微分，意味着它可以无缝接入神经网络——机器人策略学习、物理仿真都可以直接使用；

多模态输入：支持点云和 RGB-D 视频两种输入方式，适应不同硬件条件；

消费级算力：单张 RTX 3090 即可完成训练，不需要超大规模 GPU 集群；

在单张 RTX 3090 上运行

WorldString 在效率上的一个亮点是对算力的低要求。在 AI 研究越来越依赖千卡集群的今天，一个能在单张 RTX 3090（主流消费级显卡）上运行的数字孪生系统具有实际意义。

这意味着个人开发者、小型实验室也能复现和在此基础上做改进。代码已经开源在 GitHub 上，包含主模型仓库和数据生成工具两套代码：

主仓库：github.com/MaureenZOU/worldstring 数据生成：github.com/xkq1qkx/WorldString_data_gen

世界建模的基础积木

项目团队把 WorldString 定位为"物理世界模型的基础积木"。大语言模型有 token 作为基本处理单元，WorldString 想做的是：给物理世界建模提供类似的可复用的基本单元。

在这个框架下，每个物体都是一个 WorldString 表示，多个物体的 WorldString 可以组合成场景、可以互相交互、可以接入下游任务：

机器人操作：机械臂抓取之前，先通过 WorldString 理解物体的动态属性——它会怎么动、怎么变形、受力后怎么反应；

工业仿真：用真实物体的运动数据训练数字孪生，替代传统的物理建模流程；

AR/VR：动态物体可以实时响应用户的操作反馈；

具身智能：为 AI 提供可交互的物理世界理解能力；

好文章，需要你的鼓励