小米发布首代机器人VLA大模型并全面开源:剑指工业落地的具身智能革命

2026-02-13 12:05
87
春晚舞台上的机器人轮番亮相,资本与媒体的聚光灯持续聚焦,具身智能正从科技叙事的热点,迈向产业落地的关键路口。一边是高难度动作刷屏的“视觉盛宴”,一边是行业对“真实生产力”的迫切追问——机器人何时能摆脱人工兜底,真正走进工厂、稳定作业?

2月12日,小米正式发布并开源首代机器人VLA(视觉-语言-动作)大模型Xiaomi-Robotics-0,以47亿参数实现80ms推理延迟、30Hz实时控制频率,在消费级RTX 4090显卡上即可流畅运行。这款模型精准击中传统具身机器人“动作卡顿、间歇停顿”的核心痛点,在仿真与真实场景双刷新SOTA,更以全栈开源的姿态,为行业搭建起“低延迟+高智能”的基础设施。

核心痛点破局:从“卡顿演示”到“连续生产”

具身智能的终极价值在于“自主性”。当前多数机器人依赖人工辅助或单步遥操,执行中频繁停顿、修正缓慢,导致“一台机器人配一个操作员”的低效现状。唯有实现“一人监管百台机器人”的规模化运营,具身智能才能真正释放生产力。
Xiaomi-Robotics-0的核心突破,正是让机器人拥有“连续决策、持续执行”的能力。在4.7B参数规模下,其将推理延迟压缩至80ms,支持30Hz实时控制,彻底告别“思维卡顿”。更关键的是,该模型在LIBERO、CALVIN、SimplerEnv三大主流仿真+真实基准测试中全线刷新SOTA,其中Libero-Object任务成功率达100%,平均成绩98.7%,显著超越开源标杆π0.5。
值得强调的是,小米选择将Xiaomi-Robotics-0全栈开源——架构细节、算法方案、模型权重与推理脚本全部公开,让中小开发者无需从零烧钱训练,即可站在前沿基座上开发垂直应用。

三大技术创新:构建“脑手协同”的高效闭环


为实现“理解复杂环境+连续精准执行”的双重目标,小米在Xiaomi-Robotics-0上完成三项核心技术创新,形成“感知-决策-执行”的全链路优化。
双脑协同架构:DiT做“小脑”,动作丝滑无断层
模型采用MoT混合架构,创新性拆分出“视觉语言大脑”与“动作执行小脑”。大脑基于VLM(视觉语言模型),负责全局理解、指令解析与决策规划;小脑则是16层DiT(扩散Transformer),专门生成连续动作块。
相较于传统离散token编码易导致的动作截断、轨迹不连续,DiT配合流匹配技术,可直接生成连续动作向量,让机器人动作更平滑灵巧。同时,流匹配训练将推理采样步数从数十至数百步压缩至5步,大幅缩短链路;大脑与小脑复用KV Cache减少重复计算,松耦合设计在保证理解能力的同时,将推理延迟压至80ms。
两阶段预训练:既会干活,又不丢理解能力
针对具身模型“学动作就丢视觉理解”的行业通病,小米设计两阶段预训练策略,实现“鱼与熊掌兼得”。在保留VLM强大视觉语言能力的基础上,模型高效学习机器人动作数据,既不会“只会干活不懂指令”,也不会“理解到位却执行拉胯”。
在MMBench、ScienceQA、MathVista等9项VLM基准测试中,Xiaomi-Robotics-0多数指标领先对比模型,证明其在获得动作控制能力后,视觉理解与逻辑推理能力并未退化。
异步后训练机制:应对突发,实时修正
模型引入异步推理模式,将“思考”与“执行”解耦,从机制上杜绝动作断层。同时,CleanActionPrefix保障动作轨迹的时间连续性,Λ-shape Attention Mask强制模型聚焦当前视觉反馈,摆脱历史惯性影响,让机器人对环境突变的响应速度提升至80ms。

真机实测:软物处理与微操任务双达标

仿真成绩亮眼,更需经得起真实场景的考验。Xiaomi-Robotics-0在两项核心工业级任务中,展现出成熟的落地潜力。
叠毛巾(软体非结构化任务):测试6种不同毛巾,连续作业30分钟,全程保持高成功率与高吞吐,完美处理柔性物体的形态不确定性。
拆卸乐高(高精度微操任务):需完成组件拆卸、颜色分类收纳,在MA与LA-10场景成功率达100%,吞吐量领先同类模型约25%。
从仿真到视觉理解,再到真机操作,Xiaomi-Robotics-0已打通全闭环,成为兼具通用性与实用性的一体化VLA模型。

小米的路线选择:不做“表演派”,要当“进厂派”

结合小米近期动作,其具身智能路线已清晰可见——放弃“翻跟头、跳舞”的舞台表演路线,坚定走向“工业落地”的务实路径。
就在不久前,小米刚开源触觉驱动的精细抓取微调模型TacRefineNet。该模型依赖11×9压阻式触觉阵列(触点间距1.1mm),无需视觉、无需3D模型,即可实现毫米级位姿微调,Zero-shot部署于真实产线。
Xiaomi-Robotics-0提供“快速响应+连续控制”,TacRefineNet负责“末端精细调整”,二者结合形成“眼-脑-手”协同体系,精准切中工业场景中“非结构化环境作业”的核心痛点。

开源的行业价值:从营销到工程,降低创新门槛

具身机器人是重资产、长周期赛道,小米的开源行为,正在重塑行业生态。
从技术层面,它打破了“具身大模型必然卡顿”的思维定式,证明“低延迟+高智能”可在消费级硬件上实现。从产业层面,开源降低了中小开发者的准入门槛,让更多力量聚焦于垂直应用开发,而非重复造基座模型。
这种开放姿态,让小米从“产品竞争者”转变为“行业基础设施建设者”。在具身智能的长跑中,这种担当不仅能加速技术落地,更能推动行业讨论从“营销噱头”回归“工程细节”,为机器人真正走进工厂、服务生产奠定基础。
随着Xiaomi-Robotics-0与TacRefineNet的开源,具身智能的产业化进程正按下“加速键”。未来,当机器人能在产线上稳定处理琐碎任务、实现规模化运营时,今天的开源之举,或许将成为行业变革的关键转折点。
0
好文章,需要你的鼓励