理想汽车在自动驾驶领域再获重大突破,其12篇论文成功入选计算机视觉顶会CVPR,这一成果标志着该公司在智能化竞争中的技术实力迈上新台阶。作为计算机视觉领域的三大顶级会议之一,CVPR的论文入选难度极高,此次理想汽车一次性入选12篇,充分展现了其在自动驾驶底层技术研发上的深厚积累。

这12篇论文覆盖了世界模型、端到端规划、多模态感知、强化学习等多个关键方向,形成了从底层模型构建到上层决策优化的完整技术链条。其中,世界模型方向的四项研究尤为引人注目,它们分别从深度估计、三维重建、交通规则认知评估和安全风险预判四个层面展开,构建了从“还原真实世界”到“理解交通规则”再到“预判危险后果”的技术闭环。
在几何理解层面,理想汽车提出的InfiniDepth方法通过将深度表示为连续的神经隐式场,实现了更高分辨率、更细粒度的深度估计。这一突破有助于车辆更精准地恢复道路、车辆和障碍物的三维结构,为后续的仿真和环境建模提供可靠基础。在仿真资产构建方面,Unposed-to-3D技术通过两阶段框架从真实驾驶图像中学习三维车辆重建,解决了现有方法依赖合成数据导致的域差距问题,使生成的三维车辆资产更适用于真实驾驶场景仿真。
交通规则的理解和安全风险的预判是自动驾驶系统走向实用的关键。DriveCombo评测框架通过构建文本与视觉结合的组合式交通规则推理基准,提出了五级认知阶梯,系统评估了主流多模态大模型在复杂交通规则理解上的能力。AD-R1则聚焦于安全预判,通过反事实合成生成风险场景,让模型学会真实预测危险后果,并将其作为闭环强化学习中的内部评论器,为候选动作提供安全反馈。这些研究共同提升了自动驾驶系统在长尾风险场景下的可靠性。
在推理侧,理想汽车同样取得了多项重要进展。CogDriver通过引入“认知惯性”机制,解决了视觉语言模型在时序理解上的短板,使系统能够结合历史状态和持续意图做出更稳定的决策。LinkVLA则打通了语言理解与动作生成之间的通道,通过共享离散码本和动作理解辅助任务,实现了语言到动作的高效转换,同时节省了86%的推理时间。这些技术突破让自动驾驶系统从“看见和判断”进一步走向“理解、推理和行动”。

多模态感知与强化学习方向的论文则聚焦于环境预判和规划优化能力的提升。SparseWorld-TC采用稀疏占据表示,直接从原始图像特征出发预测未来多帧三维场景占据情况,为规划提供了更可靠的环境预判。PlannerRFT则通过样本高效的强化微调框架,让规划器在反馈中学会生成更合理、更适应场景的驾驶轨迹。这些研究共同增强了自动驾驶系统在复杂道路环境中的适应能力。
理想汽车的技术布局并非停留在单点能力突破,而是围绕智驾构建了一套完整的能力链条。从世界模型的还原与推演,到认知对齐与语言视觉智能的提升,再到端到端规划的形成和多模态感知与强化学习的优化,这些研究共同指向一个目标:让车辆不仅能看见世界,更能理解世界、推演未来,并在复杂场景中做出更可靠的行动选择。这一系列技术突破为理想汽车在自动驾驶领域的持续领先奠定了坚实基础。










