在NVIDIA GTC 2026大会上,理想汽车基座模型负责人詹锟发表主题演讲,正式推出下一代自动驾驶基础模型MindVLA-o1。这款模型通过五大技术突破,重新定义了自动驾驶系统的能力边界,标志着智能驾驶技术向物理世界深度融合迈出关键一步。
MindVLA-o1的核心创新在于构建了三维空间感知能力。传统系统主要依赖平面图像处理,而该模型通过融合摄像头与激光雷达数据,采用3D编码器技术,使车辆能够精准感知物体的深度、距离及运动轨迹。这种类人化的空间理解能力,让自动驾驶系统首次具备了真实物理世界的立体认知。
在决策层面,模型引入了隐世界模拟技术。通过构建动态场景预测系统,车辆不仅能分析当前路况,还能在虚拟空间中预演未来3-5秒可能发生的场景变化。这种"前瞻性思考"能力使决策系统能够提前规避潜在风险,显著提升复杂路况下的应对能力。
行为生成机制采用创新的VLA-MoE架构,整合了专门的"动作专家"模块。该系统可同步生成全行驶轨迹点,并通过优化算法消除异常波动,确保车辆运动轨迹既符合物理规律又保持流畅性。实测数据显示,这种生成方式使驾驶平稳性提升40%以上。
训练体系方面,理想汽车开发了闭环强化学习平台。通过构建高保真世界模拟器,模型可在虚拟环境中完成数百万次场景训练,训练效率较实路测试提升20倍。这种虚实结合的训练方式,既降低了数据采集成本,又加速了算法迭代速度。
硬件适配层面,研发团队通过优化模型架构与芯片的协同机制,将部署周期从数月压缩至数天。通过动态调整计算精度与硬件延迟的匹配度,成功让复杂模型在车端芯片上实现高效运行,为量产应用扫清了关键障碍。











