“大家别太兴奋,自动驾驶行业即将进入一段艰难时期。”在地平线举办的技术生态大会上,地平线副总裁兼首席架构师苏箐的这句话,如同一盆冷水,浇灭了行业内的部分狂热情绪。他并非刻意制造恐慌,而是基于对自动驾驶领域十年起伏的深刻洞察,以及对未来技术、工程和商业路径的审慎判断。

苏箐将特斯拉FSD V12视为自动驾驶发展的分水岭,其意义堪比原子时代核裂变实验首次成功——它证明了端到端数据驱动这条路是可行的。在此之前,尽管深度学习已经重构了感知系统,但规控部分仍严重依赖人工规则,导致系统行为机械、难以达到人类水平,发展瓶颈明显。FSD V12的出现,填平了从“知道正确方向”到“真正落地实现”之间的巨大鸿沟。
然而,走通这条路并不意味着一帆风顺。苏箐提醒,人类容易陷入两种错觉:在事情未发生时,完全不相信它会发生;而当事情发生后,又会认为它会持续发生。当前,行业正处在后一种盲目乐观之中。一次内核范式重构,往往是一个技术周期的高点,而非持续跃升的起点。
他指出,人工智能大约每二三十年经历一次范式轮回,这一代的深度学习技术可能已接近天花板,Scaling Law的边界或许正在临近。未来三到五年,AI和AGI的基础理论可能不会有全新突破。而且,端到端已经实现了从感知到规控的完整闭环,若要再有巨大的内核重构,就需要改变内核理论,但目前尚未看到下一个理论突破的前置信号。
基于以上判断,苏箐认为未来三年,行业的主旋律将是在已确立的端到端范式基础上,进行极致的工程优化、体验打磨和成本下探,而非期待又一次理论内核的重构。这意味着行业将告别颠覆性创新带来的兴奋,进入漫长、琐碎、烧钱的“啃硬骨头”阶段,竞争重点将从“谁先看到方向”转向“谁能把方向走得更稳、更远、更经济”。
那么,这“苦日子”具体苦在哪里?苏箐在演讲中勾勒出了三道难关。
第一重是极致工程的高成本炼狱。端到端系统虽然潜力巨大,但其开发、训练和调试过程极其复杂且不透明。一轮试验可能需要花费十几亿甚至几十亿资金,且结果非常不收敛,任何一个噪声都可能导致整个系统失效。高投入、高风险、长周期,考验着公司的财力、技术韧性和战略定力。苏箐坦言,做一轮试验可能投入十个亿还不一定成功,这种不确定性令人焦虑。
第二重是长尾问题的深水区。当基础能力过关后,真正的挑战才刚刚开始。例如,系统需要面对“后面有一个水坑,该怎么办”或者“前面卡车错车,该鸣笛等待还是绕过去”等类似人类司机日常决策的问题。然而,越是人类与生俱来的基本技能,计算机越难掌握。解决稠密物理世界中的连续决策问题,需要系统具备接近常识的认知和泛化能力。苏箐表示,这些问题极其难解决,目前还没有清晰答案,只能依靠海量数据、高效仿真和工程团队的“集团军作战能力”去一点点打磨。
第三重是规模化的成本攻坚战。苏箐设想,Urban L2(城市组合辅助驾驶)会像自动挡一样,从几十万的车普及到十万级别的车,并且一样好用。但要实现这一目标,需要在体验类人的同时,将成本压到极致。这涉及算力平台、传感器方案、数据闭环、制造规模等多个环节,每一个环节都需要精打细算。L4级自动驾驶同样面临挑战,虽然新范式解决了过去依赖高精地图、限定区域(ODD)所带来的高成本和可扩展性难题,但真正实现“以乘用车和robotaxi的双模式去部署”,并以“合理的价钱”让用户无感地获得L4级体验,仍需在可靠性、法规、商业模式上完成跨越。苏箐强调,本质是需要与人类司机比成本,这是商业本质的源头,任何无法数量级降低成本的线性递推方案在商业上都难以成立。

面对即将到来的“苦日子”,苏箐分享了地平线的应对策略。首先是铸造“工业母机”,即不断强化公司的工程能力和组织能力。苏箐认为,这是应对一切技术不确定性的确定性基础。只有拥有稳定、高效、能打硬仗的工程组织,才能在新技术来临时快速导入,在问题爆发时以“集团军”规模系统化解决,并持续攻坚那些最难的、没有现成答案的长尾问题。
其次是坚持“统一范式”。地平线不会走L2级组合辅助驾驶和L4割裂的道路,而是会重投入L4,以统一的开发范式、统一的传感器配置、统一的ODD区域,打通L2到L4。这意味着技术演进是连续曲线,今天用户在L2系统上获得的数据和体验,将为明天的L4系统提供养分;研发L4过程中攻克的高阶难题,其解决方案可以反哺提升L2的安全与流畅度。这种思路不仅提升了研发效率,更让“你现在开的是L2的车,三年后买到的车已经是准L4系统了”成为可能。
最后是“玩命堆算力”。在技术可能进入平台期时,地平线选择了持续提升算力。苏箐表示,后面每一代芯片和每一代产品会坚持十倍算力提升、十倍模型容量。他认为,随着半导体工艺进步和规模扩大,算力成本的边际效应极其显著,不要过早质疑“是否需要这么多算力”,持续、简单且粗暴地追求算力规模,是为未来更大模型、更复杂任务储备的“基建”,是在理论瓶颈期维持体验进度的核心手段。地平线的产品思路也在调整,从过去“做加法”转向“做减法”,专注于让一个统一的端到端模型“长”出各种能力。










