小米公司今日正式推出开源视觉语言动作(VLA)模型Xiaomi-Robotics-0,该模型凭借47亿参数规模与独特的架构设计,在仿真测试与真实机器人任务中均取得突破性表现。其核心优势在于实现"感知-决策-执行"闭环的物理智能,能够在消费级显卡上完成实时推理,为机器人领域带来新的技术范式。
该模型采用Mixture-of-Transformers(MoT)混合架构,通过视觉语言大脑(VLM)与动作执行小脑(Action Expert)的协同工作实现复杂任务处理。VLM模块基于多模态大模型构建,可理解"整理桌面"等模糊指令并解析空间关系;Action Expert模块则通过多层Diffusion Transformer(DiT)生成平滑动作序列,其独创的"动作块"输出方式配合流匹配技术,使机械臂操作精度达到毫米级。
针对传统VLA模型训练中常见的"理解力退化"问题,研发团队创新性地采用混合训练策略。在预训练阶段同时输入多模态数据与动作数据,使模型在掌握操作技能的同时保持物体检测、视觉问答等认知能力。通过引入Action Proposal机制,强制VLM在图像理解过程中预测动作分布,实现特征空间与动作空间的对齐。专项训练阶段则冻结VLM参数,仅优化DiT模块,最终生成的动作序列平滑度提升40%。
为解决推理延迟导致的动作断层,技术团队开发了异步推理模式。该机制通过解耦模型推理与机器人执行的时序约束,配合Clean Action Prefix技术将前序动作作为输入,确保操作连贯性。特别设计的Λ-shape注意力掩码,使模型更聚焦当前视觉反馈而非历史数据,在突发干扰测试中,机器人响应速度较传统模型提升2.3倍。
在性能验证环节,Xiaomi-Robotics-0在LIBERO、CALVIN等三大仿真平台30项基准测试中全部刷新最优纪录。真实场景测试中,搭载该模型的双臂机器人成功完成积木拆解与毛巾折叠任务,展现出对刚性与柔性物体的精准操控能力。多模态能力评估显示,其在具身交互相关测试中的准确率较前代模型提升27%,特别是在处理遮挡物体与动态场景时表现突出。
该模型现已通过开源形式向学术界与产业界开放,包含完整技术文档、训练代码及预训练权重。开发者可通过GitHub与Hugging Face平台获取资源,技术主页详细介绍了模型架构、训练方法与部署指南。此举有望加速机器人智能体从实验室走向实际应用的进程,为智能制造、家庭服务等领域提供新的技术解决方案。















