滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

小米陈龙：以“潜空间推理”破局，推动VLA与世界模型融合共进

时间：2026-04-14 05:49:21 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在智能驾驶技术快速迭代的当下，小米汽车智能驾驶基座大模型负责人陈龙向外界揭示了小米在辅助驾驶领域的最新突破。他以人类成长类比大模型发展路径：“就像人类需先积累语言和空间认知能力，再学习驾驶一样，大模型也需要经历从基础能力构建到专项技能训练的过程。”

小米新一代SU7搭载的XLA认知大模型架构，通过引入视觉、雷达、导航、声音及机器人数据等多模态输入，构建起更全面的环境感知体系。该架构突破传统VLA模型局限，在视觉-语言-动作模型基础上，创新性融合机器人数据与空间推理能力。陈龙团队历时八个月打造的Xiaomi MiMo-Embodied基座模型，通过分阶段注入通用多模态数据、辅助驾驶数据及机器人数据，使模型具备类似人类的“先认知世界再掌握技能”的学习能力。

数据融合过程中，团队发现直接混合训练会导致辅助驾驶与机器人性能双重下降。经过反复试验，他们确立了“先基础认知后专业能力”的训练范式：首先强化模型的空间感知与物理常识，再逐步引入驾驶与机器人任务数据。为解决跨模态任务协同问题，团队开发出思维链标注技术，将复杂任务拆解为物体识别、状态理解、决策执行等子任务，使模型能逐步掌握类人推理逻辑。

面对车端算力限制，陈龙团队提出潜空间推理（Latent CoT）方案。该技术通过在高维空间进行无声推理，既保证实时性要求，又保留决策可解释性。研发过程中，团队借鉴人类驾驶行为总结出三种核心思维模式：基于直觉的快速反应、依托导航信息的逻辑判断、运用空间想象的预判能力。以超车场景为例，模型需在潜空间完成“环境感知-风险评估-决策执行”的全流程计算，同时可通过解码生成人类可读的思维链或未来帧画面供验证。

在数据构建方面，小米采用自动化标注与人工精筛结合的方式。罗福莉团队开发的MiMo-V2-Omni模型负责生成初始标注数据，经人工校验后形成训练集。这种模式使标注效率提升数倍，同时确保数据质量。针对长尾场景覆盖问题，团队结合世界仿真模型生成海量虚拟数据，并通过世界动作模型实现未来状态预判，使模型具备“想象”驾驶场景的能力。

当前XLA辅助驾驶系统已实现上车应用，但初期版本采用保守策略，在确保安全的前提下逐步释放模型能力。陈龙透露，系统通过规则引擎与模型决策的协同机制，在复杂场景中仍保持人工干预通道。随着数据持续迭代，未来版本将实现更自然的类人驾驶体验。

在技术路线选择上，小米主张VLA与世界模型的融合发展。陈龙指出，潜空间推理框架已实现两种范式的统一：既可通过语言解码实现决策解释，也能运用视觉推理生成未来画面。这种设计使模型能根据场景需求，灵活切换直觉反应、逻辑分析或空间想象等不同思维模式。

对于行业关注的模型升级波动问题，陈龙认为这属于架构切换期的正常现象。他强调自研基座模型的重要性：“只有掌握预训练数据主权，才能确保模型发展的可控性。”据悉，小米最新发布的Xiaomi MiMo-V2-Omni全模态基座模型已应用于数据标注与训练监督，其增强的Agent能力显著提升了系统对复杂指令的理解水平。

在跨领域技术迁移方面，小米正探索辅助驾驶与机器人技术的协同发展。陈龙透露，团队与机器人部门共建统一技术架构，在空间感知、运动控制等底层能力上实现复用。这种技术布局不仅提升研发效率，更为未来“人车家”全生态智能联动奠定基础。随着XLA模型持续进化，小米的智能驾驶系统正从数据驱动迈向认知驱动的新阶段。

更多>同类资讯

亚马逊购物“大丰收”：网友买1块三星2TB SSD竟收到10块

05-17

亚马逊停更旧款Kindle技术支持，用户为保使用选择冒险越狱

05-17

谷歌I/O前夕Veo 4重磅泄露：AI视频“切镜头”升级，叙事生产力迎变革

05-17

谷歌I/O前夕Veo 4泄露，AI视频迎叙事革命，多机位与音频同步成亮点

05-17

杭州揭牌国家人工智能具身智能中试基地 18家龙头企业携手共探多场景应用

05-17

文生视频先驱智象未来：以认知迭代为翼，探索世界模型新边界

05-17

特斯拉FSD V14.3.3更新：智能召唤提速，核心性能与舒适度双提升

05-17

机械师Mini GTR迷你主机上架预约：R7 8745H+16G+1TB 仅售3999元

05-17

荣耀笔记本X14 2026“战斗版”来袭，酷睿5 320处理器搭配轻薄机身登场

05-17

小米曾规划超轻薄Air旗舰，因体验妥协最终未量产引关注

05-17

特斯拉FSD V14.3.3更新：智能召唤提速，系统性能与舒适度双提升

05-17

买一块三星990 PRO 2TB SSD却收到10块：价值3.3万元

05-17

亚马逊将停止为旧款Kindle提供支持，用户纷纷选择越狱设备

05-17

谷歌Veo 4惨遭泄露，视频版“香蕉”9秒封神

05-17

Meta裁员前夜，员工抢零食如末日

05-17

点击查看更多 +

全站最新

蔚来李斌谈换电：非失血点而是潜力股，未来或成重要收入源

比亚迪闪充站建设提速：一周新增55座，覆盖312城年底将达2万座

特斯拉FSD V14.3.3更新：智能召唤提速，系统性能与舒适度双提升

乐道两年跨越培育期：精准布局纯电赛道，以实力开启跃升新篇

爱跑103号赛级燃油亮相！打破进口依赖，国产高性能燃油填补空白

绿意川蜀邂逅硬核江铃大道成都上市会解锁皮卡多元生活新可能

热门内容

本栏最新

特斯拉FSD V14.3.3更新：智能召唤提速，系统性能与舒适度双提升

小米AI大模型密集落地：从“缺位”到“领跑” 构建人车家全生态新图景

2026年PI与PET胶带行业变革：技术驱动下耐温防静电的供应商新选择

小米YU7“火山灰”配色官图亮相！高纯度灰调设计，5月底将正式发布

科大讯飞AI学习机深度评测：护眼设计搭配学习功能，哪款更适合孩子？

科大讯飞智能办公本深度评测：以科技赋能办公高效体验触手可及

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.