小米发布首代VLA机器人大模型

B.news
2026-02-14 11:37:48
小米太卷了,发布了参数仅4.7B的 机器人模型。 它能实现80ms低延迟推理,反应速度极快。 在消费级4090显卡上就能丝滑运行。 采用创新双脑协同架构,动作生成更灵巧。 关键是完全开源,中小开发者终于有福了。

小米发布首代VLA机器人大模型

小米发布并开源首代机器人VLA大模型Xiaomi-Robotics-0,参数仅4.7B,推理延迟80ms,能在消费级RTX

4090显卡上实时运行。


该模型采用"大脑+小脑"双脑协同架构,大脑为视觉语言模型负责理解决策,小脑为16层Diffusion Transformer负责生成连续动作块,通过流匹配技术将采样步数从数百步压缩至5步。

在LIBERO、CALVIN、SimplerEnv三大仿真基准测试中,该模型包揽所有细分项SOTA;真机测试中叠毛巾、拆乐高等长周期任务动作连贯,保留了物体检测和视觉问答能力。


模型采用异步推理模式解决"动作断层"问题,通过Λ形注意力掩码强制关注当前视觉反馈而非历史惯性。


代码、模型权重和技术报告已全量开源,托管于GitHub和Hugging Face平台,4.7B参数规模让开发者用单张4090就能本地部署, 具身智能开发门槛显著降低。


编辑:Laverne