生数科技联合清华开源 Motus:40% 超越 Pi0.5,具身智能迈入统一模型时代

2026-02-07 10:06
142
2月6日,生数科技携手清华大学正式开源大一统通用基座世界模型Motus。作为具身智能领域的突破性成果,Motus以视频大模型为统一表征底座,打破“感知→推理→行动”的碎片化范式,在多项核心任务中较国际领先的VLA模型Pi0.5实现40%成功率提升,首次让机器人具备类人般“感知-想象-执行”的全链路能力,为通用人工智能(AGI)从数字世界走向物理世界奠定关键基础。

一、核心突破:终结碎片化,构建“全脑式”统一模型
Motus的核心创新在于“大一统”建模理念,彻底解决传统具身智能的两大瓶颈(多模态能力割裂、数据依赖严重):
1.架构统一:五种范式融为一体
首次将VLA(视觉-语言-动作模型)、世界模型、视频生成模型、逆动力学模型、视频-动作联合生成模型五种主流具身基础范式,整合到同一框架中,构建贯通“感知-推理-行动”的端到端链路,而非简单的模块拼装。区别于World Labs、Genie3等侧重渲染仿真的路线,Motus既能理解环境与指令,又能预测动作后果并执行,真正适配物理世界场景。
2.数据突破:打破真机数据稀缺困境
统一跨本体机器人数据、仿真合成数据、人类操作视频、互联网视频等异构数据的动作空间,通过大规模预训练共享运动先验,摆脱对专家采集任务轨迹的依赖。在相同性能水平下,Motus展现出13.55倍的数据效率,仅需少量数据即可实现高效泛化。
3.技术前瞻:早于行业布局,路线获印证
2025年7月:发布Vidar具身视频模型相关工作,早于行业半年;
2025年12月:完成Motus论文发布与全开源,早于行业2个月;
后续产业界、学术界陆续跟进相关研究,印证其技术路线的前瞻性。
二、性能碾压:仿真+真机双领先,刷新复杂任务上限
Motus在仿真与真机评测中均展现出革命性性能,核心指标全面超越Pi0.5:
1.多任务泛化:Scale Up能力行业领先
Data Scaling实验:50个任务平均成功率较Pi0.5提升35.1%,数据利用效率提升13.55倍;
Task Number Scaling实验:随任务数量增加,成功率持续上升(Pi0.5则持续下降),最终绝对成功率提升37%,印证“多任务学习→通用能力”的演进逻辑。
2.仿真评测:88%成功率,攻克高难度任务
在RoboTwin 2.0仿真环境(50个通用任务,2.75万条混合训练数据)中,Motus平均成功率达88%:
高难度任务“Stack Bowls Three”(动态平衡要求极高):成功率91%-95%,较基线模型(≤16%)实现数量级跃升;
堆叠、抓取、操作等核心任务:成功率普遍突破90%,部分任务达100%。
3.真机部署:跨平台适配,复杂场景落地
在AC-One、Agilex-Aloha-2两款不同本体机器人上,Motus平均成功率分别达63.22%和59.30%,显著优于Pi0.5:
长程多步骤任务:成功实现煮咖啡(62%)、磨咖啡豆(92%)、叠毛巾(14.5%-39%)等复杂操作;
柔性物体交互:精准预测织物形变,完成连贯折叠流程,突破传统方法瓶颈;
特殊场景突破:破解Cloudflare人机验证(精准操控鼠标点击)、孔明棋连续走棋(理解规则并执行)、键盘精准触控(82.5%)。
三、开源生态:全链路开放,赋能产业升级
Motus已完全开源,为全球开发者提供“通用物理智能底座”,支持工业机械臂、服务机器人、移动机器人等多场景适配:
代码与模型权重:GitHub(https://github.com/thu-ml/Motus)
开源协议:Apache-2.0许可证,支持商用与二次开发。
四、行业意义:具身智能从“模块拼装”到“统一智能体”的范式转变
Motus的发布被海外AI与机器人领域专家评价为“具身智能的关键跃迁”:
技术层面:验证了“视频模型→世界模型→物理智能”的核心路径,为具身基础模型Scale Up提供明确方向;
应用层面:降低具身智能开发门槛,推动机器人在工业、家政、服务等领域的规模化落地;
生态层面:开源统一底座打破技术壁垒,促进产业界与学术界协同创新,加速AGI走向物理世界的进程。
总结来看,Motus通过“架构统一、数据高效、性能领先”的三重优势,重新定义了具身智能的发展范式。其开源特性将进一步激活产业创新,让机器人从“机械执行工具”向“类人智能体”跨越,为AI改变物理世界提供核心技术支撑。
0
好文章,需要你的鼓励