理想汽车创始人李想近日在社交平台发布长文,深入剖析了自动驾驶领域长期面临的技术瓶颈,并首次公开了理想汽车突破行业困境的创新方案。他指出,人类驾驶员在幼年时期便通过日常活动构建了对三维物理空间的完整认知,这种与生俱来的空间理解能力是安全驾驶的核心基础。然而当前行业普遍采用的2D视觉训练模式,本质上如同仅凭行车记录仪画面就试图驾驭复杂路况,存在根本性缺陷。
技术层面,传统BEV架构在处理空间信息时存在高度维度缺失,而OCC方案虽能捕捉几何结构却无法解析语义信息。这种技术路径导致AI系统始终无法真正理解三维世界的物理规律,成为制约自动驾驶发展的关键因素。李想形象地比喻:"现有方案就像让AI戴着墨镜看世界,既看不清立体结构,也读不懂环境语义。"
针对这一难题,理想汽车研发团队推出原生3D ViT三维视觉编码器。该技术突破性地将模型训练直接置于三维空间进行,使系统能够同步完成几何结构解析与语义信息理解。配合自研马赫芯片提供的三倍算力支持,新系统可实现500米以上的稳定环境感知,将激光雷达的角色从主传感器转变为高精度标定工具,显著提升了系统冗余度。
更值得关注的是MindVLA?o1多模态大模型的创新应用。该模型通过统一建模空间理解、推理决策和驾驶行为,使系统具备"思考"能力。其独特的隐空间模拟技术可提前预判场景变化,在复杂路况下实现更类人的决策逻辑。李想特别强调,这项技术突破不仅限于自动驾驶领域,其多模态架构已展现出适配机器人系统的潜力。
据技术文档披露,原生3D架构使系统对动态障碍物的轨迹预测准确率提升42%,复杂路口的决策延迟降低至90毫秒以内。在夜间雨雾等极端天气测试中,系统仍能保持98.7%的有效感知率。这些数据表明,理想汽车的技术路线正在重新定义自动驾驶的安全边界。
随着物理世界智能体概念的提出,理想汽车的技术布局显现出更大野心。李想透露,公司正在开发基于该架构的通用AI平台,未来将实现自动驾驶、家庭服务机器人、工业自动化等场景的跨领域应用。这种从单一交通场景向通用物理智能的延伸,标志着自动驾驶技术进入新的发展阶段。











