小米今日宣布正式推出并全面开源其自主研发的具身大模型MiMo-Embodied,该模型首次实现了自动驾驶与具身智能领域的跨域协同,为通用人工智能研究开辟了新的技术路径。这一突破性成果针对当前行业面临的两大核心挑战——机器人与车辆认知能力的互通性、室内外智能系统的协同性,提供了系统性解决方案。
传统技术框架下,具身智能(如家庭服务机器人)与自动驾驶系统分别专注于垂直场景优化,导致知识迁移困难、能力复用率低。小米研发团队通过构建统一建模框架,使MiMo-Embodied能够同时处理具身智能的三大核心任务(环境交互推理、任务序列规划、三维空间理解)和自动驾驶的三大关键能力(动态环境感知、多主体状态预测、复杂路况决策),形成覆盖全场景的智能支撑体系。
技术实现层面,该模型采用三阶段创新训练策略:首先通过多模态数据构建基础认知能力,继而引入思维链(Chain-of-Thought)推理增强复杂任务分解能力,最终通过强化学习(RL)优化真实场景部署稳定性。这种渐进式优化方案使模型在真实环境中的适应性和鲁棒性显著提升,特别是在处理开放域任务时展现出更强的泛化能力。
在权威基准测试中,MiMo-Embodied创造了新的性能纪录。具身智能领域,该模型在17项标准测试中刷新最优成绩(SOTA),特别是在工具使用预测、长期任务规划等复杂认知任务上突破原有能力边界;自动驾驶领域,其12项测试指标全面领先,尤其在雨雪天气感知、突发状况决策等极端场景下表现突出。更值得关注的是,模型在通用视觉语言任务中也取得显著进步,证明跨域架构能有效提升基础认知能力。
技术验证环节,研究团队重点测试了跨场景知识迁移效果。实验数据显示,经过具身智能训练的模型在自动驾驶决策任务中准确率提升19%,而自动驾驶预训练模型在家庭场景任务规划效率上提高23%。这种双向赋能效应验证了不同领域智能体共享认知框架的可行性,为开发通用型人工智能系统提供了重要参考。
此次开源的MiMo-Embodied包含完整训练代码、预训练权重和部署工具链,支持研究者基于不同硬件平台进行二次开发。小米表示,通过开放核心技术框架,旨在加速构建跨领域智能生态,推动机器人、自动驾驶、智能制造等产业的协同创新。该模型的跨模态理解能力和高效训练方案,也为中小研发团队降低了通用人工智能的技术门槛。











