小米今日正式发布开源视觉语言动作(VLA)模型Xiaomi-Robotics-0,该模型以47亿参数规模实现视觉语言理解与实时动作执行的双重突破,在仿真测试与真实机器人任务中均刷新多项最优成绩。其核心创新在于构建了"感知-决策-执行"的完整闭环系统,能够在消费级显卡上完成每秒30帧以上的实时推理,为机器人物理智能的泛化应用开辟新路径。
模型架构采用创新的Mixture-of-Transformers(MoT)设计,通过双模块协同工作实现复杂任务处理。视觉语言大脑(VLM)模块基于多模态大模型构建,可解析"整理桌面"等模糊指令,并从4K分辨率的视觉输入中识别物体空间关系。动作执行小脑(Action Expert)则引入多层Diffusion Transformer(DiT)结构,通过生成包含16个连续动作的"动作块",配合流匹配技术确保毫米级操作精度。这种设计使机器人在叠毛巾任务中展现出类似人类的柔性操作能力,能自适应调整力度防止织物撕裂。
针对传统VLA模型训练中常见的"理解退化"问题,研发团队提出混合训练范式。在预训练阶段,模型同时接触1200万帧机器人操作数据与2.3亿张多模态图像,通过动作提议机制强制VLM特征空间与动作空间对齐。专项训练阶段则冻结VLM参数,仅优化DiT模块的条件生成能力,最终实现98.7%的物体检测准确率与92.3%的视觉问答正确率。这种训练方式使模型在保持认知能力的同时,动作生成频率提升3倍。
为解决推理延迟导致的动作卡顿,团队开发了异步推理框架与Clean Action Prefix技术。通过解除模型推理与机械臂运动的同步约束,配合将前序动作作为输入的轨迹平滑算法,使双臂机器人在积木拆解任务中实现0.2秒内的突发响应。特殊设计的Λ形注意力掩码进一步强化模型对实时视觉反馈的关注度,在环境光线突变测试中,机器人动作偏差率较传统模型降低67%。
在性能验证环节,Xiaomi-Robotics-0在LIBERO仿真环境中取得91.4%的任务完成率,较第二名模型提升14.2个百分点。真实场景测试中,双臂机器人成功完成包含47个步骤的毛巾折叠任务,操作精度达到0.5毫米级。多模态能力评估显示,该模型在具身交互基准测试中得分较基线模型提高31%,特别是在工具使用和空间推理等复杂场景中表现突出。
目前,小米已开放模型技术文档、训练代码及预训练权重。开发者可通过GitHub获取基础框架,在Hugging Face平台下载完整模型包。该开源项目特别提供跨本体适配接口,支持机械臂、移动机器人等不同形态设备的快速部署,为工业自动化、家庭服务等场景提供可扩展的智能解决方案。
















