理想汽车创始人李想近日在社交平台发布长文,深度剖析了自动驾驶领域长期存在的技术瓶颈,并首次公开了理想汽车在三维空间感知技术上的重大突破。他指出,当前行业普遍采用2D视觉数据训练自动驾驶系统,这种模式如同让AI仅通过行车记录仪画面理解复杂路况,难以构建完整的空间认知能力。
传统技术路线中,BEV架构因缺失高度维度信息导致空间感知失真,而OCC方案虽能捕捉几何结构却无法解析语义内容。这种二维到三维的转换缺陷,使得AI系统始终无法像人类驾驶员那样,基于幼年时期形成的三维空间认知基础进行安全决策。李想强调,这种技术范式的局限性正是制约自动驾驶发展的核心障碍。
针对行业痛点,理想汽车研发团队推出原生3D ViT视觉编码器,该技术突破性地让神经网络直接在三维空间进行特征提取。通过同步处理几何结构与语义信息,系统可实现500米范围内的稳定环境感知,较传统方案感知距离提升300%。配合自研马赫芯片提供的算力支撑,激光雷达在该系统中转型为高精度校准工具,显著降低对硬件的依赖。
更值得关注的是MindVLA?o1多模态大模型的应用。该模型通过统一建模空间理解、决策推理和驾驶行为,使系统具备在隐空间模拟场景变化的能力。这种类人思考机制不仅提升了自动驾驶的决策质量,更展现出跨领域应用的潜力——李想透露,该技术架构已开始向机器人领域延伸,未来有望构建通用型物理世界智能体。
技术团队通过大量对比实验验证,采用三维感知架构的系统在复杂路况下的决策准确率提升47%,异常场景响应速度缩短至0.3秒以内。目前该技术已进入实车测试阶段,首批搭载车型预计将在年内完成路测验证。这项突破不仅为自动驾驶开辟了新的技术路径,更重新定义了AI与物理世界的交互方式。











