小米发布首代VLA机器人大模型

B.news

2026-02-14 11:37:48

小米太卷了，发布了参数仅4.7B的机器人模型。它能实现80ms低延迟推理，反应速度极快。在消费级4090显卡上就能丝滑运行。采用创新双脑协同架构，动作生成更灵巧。关键是完全开源，中小开发者终于有福了。

小米发布首代VLA机器人大模型

小米发布并开源首代机器人VLA大模型Xiaomi-Robotics-0，参数仅4.7B，推理延迟80ms，能在消费级RTX

4090显卡上实时运行。

该模型采用"大脑+小脑"双脑协同架构，大脑为视觉语言模型负责理解决策，小脑为16层Diffusion Transformer负责生成连续动作块，通过流匹配技术将采样步数从数百步压缩至5步。

在LIBERO、CALVIN、SimplerEnv三大仿真基准测试中，该模型包揽所有细分项SOTA；真机测试中叠毛巾、拆乐高等长周期任务动作连贯，保留了物体检测和视觉问答能力。

模型采用异步推理模式解决"动作断层"问题，通过Λ形注意力掩码强制关注当前视觉反馈而非历史惯性。

代码、模型权重和技术报告已全量开源，托管于GitHub和Hugging Face平台，4.7B参数规模让开发者用单张4090就能本地部署, 具身智能开发门槛显著降低。

编辑：Laverne