ITBear旗下自媒体矩阵:

小米陈龙:以“潜空间推理”破局,推动VLA与世界模型融合共进

   时间:2026-04-14 05:49:21 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在智能驾驶技术快速迭代的当下,小米汽车智能驾驶基座大模型负责人陈龙向外界揭示了小米在辅助驾驶领域的最新突破。他以人类成长类比大模型发展路径:“就像人类需先积累语言和空间认知能力,再学习驾驶一样,大模型也需要经历从基础能力构建到专项技能训练的过程。”

小米新一代SU7搭载的XLA认知大模型架构,通过引入视觉、雷达、导航、声音及机器人数据等多模态输入,构建起更全面的环境感知体系。该架构突破传统VLA模型局限,在视觉-语言-动作模型基础上,创新性融合机器人数据与空间推理能力。陈龙团队历时八个月打造的Xiaomi MiMo-Embodied基座模型,通过分阶段注入通用多模态数据、辅助驾驶数据及机器人数据,使模型具备类似人类的“先认知世界再掌握技能”的学习能力。

数据融合过程中,团队发现直接混合训练会导致辅助驾驶与机器人性能双重下降。经过反复试验,他们确立了“先基础认知后专业能力”的训练范式:首先强化模型的空间感知与物理常识,再逐步引入驾驶与机器人任务数据。为解决跨模态任务协同问题,团队开发出思维链标注技术,将复杂任务拆解为物体识别、状态理解、决策执行等子任务,使模型能逐步掌握类人推理逻辑。

面对车端算力限制,陈龙团队提出潜空间推理(Latent CoT)方案。该技术通过在高维空间进行无声推理,既保证实时性要求,又保留决策可解释性。研发过程中,团队借鉴人类驾驶行为总结出三种核心思维模式:基于直觉的快速反应、依托导航信息的逻辑判断、运用空间想象的预判能力。以超车场景为例,模型需在潜空间完成“环境感知-风险评估-决策执行”的全流程计算,同时可通过解码生成人类可读的思维链或未来帧画面供验证。

在数据构建方面,小米采用自动化标注与人工精筛结合的方式。罗福莉团队开发的MiMo-V2-Omni模型负责生成初始标注数据,经人工校验后形成训练集。这种模式使标注效率提升数倍,同时确保数据质量。针对长尾场景覆盖问题,团队结合世界仿真模型生成海量虚拟数据,并通过世界动作模型实现未来状态预判,使模型具备“想象”驾驶场景的能力。

当前XLA辅助驾驶系统已实现上车应用,但初期版本采用保守策略,在确保安全的前提下逐步释放模型能力。陈龙透露,系统通过规则引擎与模型决策的协同机制,在复杂场景中仍保持人工干预通道。随着数据持续迭代,未来版本将实现更自然的类人驾驶体验。

在技术路线选择上,小米主张VLA与世界模型的融合发展。陈龙指出,潜空间推理框架已实现两种范式的统一:既可通过语言解码实现决策解释,也能运用视觉推理生成未来画面。这种设计使模型能根据场景需求,灵活切换直觉反应、逻辑分析或空间想象等不同思维模式。

对于行业关注的模型升级波动问题,陈龙认为这属于架构切换期的正常现象。他强调自研基座模型的重要性:“只有掌握预训练数据主权,才能确保模型发展的可控性。”据悉,小米最新发布的Xiaomi MiMo-V2-Omni全模态基座模型已应用于数据标注与训练监督,其增强的Agent能力显著提升了系统对复杂指令的理解水平。

在跨领域技术迁移方面,小米正探索辅助驾驶与机器人技术的协同发展。陈龙透露,团队与机器人部门共建统一技术架构,在空间感知、运动控制等底层能力上实现复用。这种技术布局不仅提升研发效率,更为未来“人车家”全生态智能联动奠定基础。随着XLA模型持续进化,小米的智能驾驶系统正从数据驱动迈向认知驱动的新阶段。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version