在NVIDIA GTC 2026大会上,理想汽车基座模型负责人詹锟正式发布了下一代自动驾驶基础模型MindVLA-o1。这款模型的核心突破在于实现了原生3D视觉编码器(3D ViT),标志着自动驾驶技术向物理世界理解迈出关键一步。理想汽车CEO李想随后通过长文详细阐释了技术逻辑,指出自动驾驶的瓶颈并非数据或算力不足,而是缺乏对三维空间的本质认知。
传统自动驾驶系统依赖BEV(鸟瞰图)或OCC(占用网络)技术,前者将三维世界压缩为二维平面导致高度信息丢失,后者虽保留空间维度却缺乏语义理解。理想汽车研发的3D ViT技术突破了这一局限,通过多视角高分辨率视觉输入,在编码阶段直接完成对空间几何结构与语义信息的统一解析。这种设计使模型能够同时感知物体的位置、形态及功能属性,例如准确识别交通标志牌的立体轮廓及其指示内容。
技术团队从人类认知发展规律中获取灵感:儿童在6岁前通过基础动作训练建立的三维空间感知能力,正是自动驾驶系统所缺失的"预训练"阶段。现有端到端系统相当于让AI直接观看十万小时行车记录仪后上路,而3D ViT则通过构建真实三维认知框架,使模型具备类似人类的场景理解能力。实验数据显示,该技术可将空间感知范围稳定扩展至500米以上,较传统方案提升3倍以上。
硬件层面的突破为技术落地提供支撑。理想自研的马赫芯片单颗算力达前代3倍,有效解决了3D视觉处理对车端算力的严苛要求。这种软硬协同设计使激光雷达的角色发生转变:从感知核心降级为辅助标定工具,其提供的高精度几何数据仅用于修正视觉模型的局部误差。系统整体性能不再受制于传感器物理参数,而是取决于模型对三维世界的表征能力。
MindVLA-o1的创新不止于自动驾驶领域。通过将空间理解、决策推理与执行控制统一在单一模型架构中,该系统展现出多模态思考能力——既能预测未来3-5秒的场景演变,又能根据推理结果生成最优驾驶策略。这种通用物理智能架构已初步验证可迁移至机器人控制场景,为理想汽车构建智能生态体系奠定基础。技术团队强调,自动驾驶只是物理AI的起点,未来该技术将推动更多实体设备获得环境交互能力。










