
小米发布并开源首代机器人VLA大模型Xiaomi-Robotics-0,参数仅4.7B,推理延迟80ms,能在消费级RTX
4090显卡上实时运行。
该模型采用"大脑+小脑"双脑协同架构,大脑为视觉语言模型负责理解决策,小脑为16层Diffusion Transformer负责生成连续动作块,通过流匹配技术将采样步数从数百步压缩至5步。
在LIBERO、CALVIN、SimplerEnv三大仿真基准测试中,该模型包揽所有细分项SOTA;真机测试中叠毛巾、拆乐高等长周期任务动作连贯,保留了物体检测和视觉问答能力。
模型采用异步推理模式解决"动作断层"问题,通过Λ形注意力掩码强制关注当前视觉反馈而非历史惯性。
代码、模型权重和技术报告已全量开源,托管于GitHub和Hugging Face平台,4.7B参数规模让开发者用单张4090就能本地部署, 具身智能开发门槛显著降低。
编辑:Laverne