小米近日宣布,正式推出并开源全球首个实现自动驾驶与具身智能深度融合的跨域基座模型MiMo-Embodied。该模型及训练权重已在国际知名学术平台arXiv与开源社区Hugging Face同步开放,标志着智能体技术进入跨场景协同新阶段。
技术架构层面,MiMo-Embodied突破传统模型单一场景限制,通过统一参数架构同时处理六大核心任务:在具身智能领域实现物体可用性判断、复杂任务拆解与三维空间建模;在自动驾驶场景完成动态环境感知、车辆状态预测及路径规划优化。这种设计使室内机器人操作与室外车辆决策共享底层认知框架,形成跨域知识迁移的协同效应。
训练策略采用三阶段强化机制:首先通过多模态数据构建基础能力,继而引入思维链(Chain-of-Thought)推理增强逻辑连贯性,最终通过深度强化学习(RL)优化真实场景鲁棒性。这种渐进式训练方式使模型在复杂动态环境中的部署可靠性提升40%以上,显著降低实际应用的适配成本。
性能验证显示,该模型在29项跨领域基准测试中全面领先。具身智能方向的17项评测中,15项刷新现有最优记录(SOTA),包括机械臂操作精度、多任务规划效率等关键指标;自动驾驶方向的12项测试中,在雨雾天气感知、突发状况决策等复杂场景表现突出,部分指标超越行业头部闭源模型。更值得关注的是,模型在通用视觉语言任务中展现出跨模态理解能力,验证了其作为智能底座的扩展潜力。
应用落地方面,小米已制定清晰路线图:2026年第一季度起,通过OTA升级将模型部署至自研扫地机器人、工业AGV及SU7系列智能汽车,实现室内外智能体的认知能力跃迁。同时开放模型API接口,为智能家居、智慧物流、智能制造等领域开发者提供跨场景解决方案,推动形成"感知-决策-执行"全链条的智能生态体系。



















