在智能驾驶技术快速迭代的浪潮中,小米汽车凭借新一代SU7车型的发布,正式推出基于XLA认知大模型架构的辅助驾驶系统。这一突破性进展背后,是小米智能驾驶基座大模型负责人陈龙带领团队对技术路径的深度探索。与传统视觉-语言-动作模型(VLA)不同,XLA架构创新性融合声音、机器人操作等多维度数据,构建起更贴近人类认知模式的决策体系。
陈龙在专访中用人类成长规律类比技术演进:"婴儿通过触摸感知世界,青少年积累语言能力,成年后才能将空间认知与行为控制有机结合。智能驾驶系统同样需要经历从数据积累到认知突破的过程。"这种理念直接推动小米辅助驾驶系统完成关键升级——在2024年行业普遍采用的"端到端+VLM"架构基础上,突破单纯数据驱动的局限,转向以认知理解为核心的新阶段。
回顾技术迭代历程,2024年国内车企集体转向的端到端架构,通过拆除传统感知、规划、决策模块,直接输入海量驾驶场景数据训练模型。这种范式虽显著提升系统平均性能,却暴露出应对复杂场景的短板。陈龙团队发现,当遇到训练数据未覆盖的极端天气、突发路况时,系统常出现决策迟滞,印证了单纯数据驱动的局限性。
XLA架构的突破性在于构建多模态认知引擎。除视觉与语言信息外,系统特别强化对声音信号的解析能力——既能识别警报声、鸣笛声等环境音,也可通过车内语音交互理解乘客意图。更引入机器人操作数据训练空间感知模块,使系统对车辆物理特性、道路几何结构的理解达到新维度。这种跨模态认知融合,让辅助驾驶系统首次具备类似人类驾驶员的"直觉判断"能力。
技术实现路径上,研发团队重构了神经网络架构。在保留端到端训练优势的同时,新增认知推理层与知识图谱库。当传感器捕捉到新场景时,系统不再机械匹配历史数据,而是通过认知推理层调用相关知识模块,结合实时环境信息生成最优决策。这种架构使SU7在近期路测中,对临时交通管制、非标障碍物等复杂场景的应对成功率提升47%。
陈龙的职业轨迹折射出智能驾驶领域的技术演进。少年时期受《霹雳游侠》中KITT跑车启发,他在剑桥大学孵化的自动驾驶公司Wayve期间,率先将VLA模型引入辅助驾驶领域。加入小米后,面对国内特有的复杂路况挑战,他主导开发出这套更适应本土交通环境的认知架构。据测试数据显示,搭载XLA系统的SU7在城乡结合部等非结构化道路场景中,接管频率较前代系统降低62%。
这场认知革命正在重塑人机共驾关系。传统辅助驾驶系统与驾驶员的权责划分常引发争议,而具备认知理解能力的XLA架构通过透明化决策过程,使系统能主动解释操作意图。当检测到乘客紧张时,系统会自动调低加速力度;遇到儿童突然冲出马路等极端情况,会在制动同时通过语音安抚乘客。这种情感化交互设计,标志着辅助驾驶从功能实现向用户体验的深层进化。







