在纳什维尔,全球计算机视觉盛会CVPR 2025临近尾声之际,社交平台上仍流传着关于大会注册队伍绕大厅2.5圈的趣闻,以及参会者因长队而建议迟到的朋友“安心睡懒觉”的调侃,这些趣闻从侧面反映了此次大会的空前盛况。
这座城市因万名AI研究者的涌入而变得热闹非凡:机场内,背着电脑包、佩戴参会证的学者络绎不绝;市中心酒店几乎一房难求;会场走廊内,研究者或席地而坐专注工作,或匆匆穿梭于各分会场,咖啡区更是排起了长龙,共同绘制出一幅生动的AI盛会图景。
论文海报展示区人头攒动,展现了学术交流的热烈氛围。据官方数据,本次大会共收到13,008篇论文投稿,创历史之最,而最终录取率却低至22.1%,凸显了竞争的激烈程度。其中,仅有96篇论文获得口头报告机会,占比约3.3%,堪称凤毛麟角。
本次大会的两大技术风向标尤为引人注目。一方面,3D视觉领域迎来爆发前夕,成为高质量研究成果和演示展示最为集中的领域,最佳论文VGGT便是一个能从2D图片中高效重建3D信息的端到端方案,其第一作者王建元为华人研究员。另一方面,“世界模型”成为全场热议的焦点,频繁出现在各类论文、海报和研讨会上。
多位华人学者如谢赛宁、苏昊、郑奇立等亦在本次大会上斩获奖项与提名,彰显了中国研究员在国际舞台上的活跃度和影响力。
值得注意的是,CVPR的学术界与产业界界限正日益模糊。会场内随处可见meta、Google、NVIDIA等企业的logo,大量参会者佩戴企业工牌,“从论文到产品”成为热议话题。一位连续多年参会者表示,今年的CVPR更像是一场技术与产业紧密结合的大集市,一个全球技术人才、成果、场景三位一体的竞速场。
在这场盛会中,一个来自中国的身影尤为引人注目。在自动驾驶分论坛(WAD)上,小鹏汽车世界基座模型负责人刘先明发表了题为《通过大基础模型扩展自动驾驶》的主题演讲。与其他“论文参会型”企业不同,小鹏汽车作为唯一受邀的中国车企,带着在工业领域的重磅实践经验登场,分享了如何用产业的真实数据和研发经验推动基础科研边界的独到见解。
刘先明直言不讳地指出,他是当天唯一一个来自大规模量产汽车公司的分享者,这一开场白瞬间吸引了在场AI学者的注意。他分享的,不是纯粹的理论推演,而是产业一线反复验证过的解题思路。
小鹏汽车自今年4月发布720亿参数的“世界基座模型”以来,首次在国际学术顶会上完整披露其自动驾驶研发进展。他们带来了工业界首次对“扩展法则”在自动驾驶领域的系统性验证,并结合“云端基座模型+强化学习”的方法论,公开了已被DeepSeek验证的“知识蒸馏”路径,以及将VLA(Visual-Language-Action)模型高效部署在自研芯片上的最新实践。
在刘先明看来,自动驾驶软件正经历一场范式革命,从“软件1.0”的C++规则堆砌,到“软件2.0”的模型逐步替代软件,再到如今小鹏全面投入的“软件3.0”阶段,核心理念已发生根本性转变。在“软件3.0”时代,最大特点是用模型生产模型。
小鹏汽车的实践是,先在云端“不计成本”地训练出最聪明、最强大的“驾驶大脑”,暂不考虑车上小芯片的计算能力。待云端模型能力足够强大后,再通过技术手段将其蒸馏成适合车端运行的版本。目前,小鹏训练的“完全体”基座模型参数规模高达720亿,是行业主流VLA模型的35倍以上。
支撑这套“先做大、再做小”逻辑的,是一项关键实验结果:扩展法则在自动驾驶领域是有效的。小鹏团队通过大规模实验首次公开验证了这一点。他们展示的图表显示,当模型参数量增加、训练视频片段数量增多时,衡量轨迹预测精准度的关键指标——纵向平均位移误差(Long ADE)——呈现出持续下降的趋势,意味着模型预测未来轨迹的精准度确实随着规模增加而系统性提升。
小鹏还展示了在大模型能力塑造中的关键策略组合——链式推理(Chain of Thought, CoT)+强化学习(RL)。通过CoT让AI学会分步骤思考,提升可解释性和鲁棒性;通过RL让AI在试错中进化,自主寻找最优驾驶策略。为实现这一点,小鹏打造了完整的RL训练体系。
有了这个既会“思考”又能进化的云端大脑,如何将其装进每一辆车里成为新的挑战。小鹏的软件解法是通过“知识蒸馏”路径将基座模型能力提炼为适配车端算力的小型模型;硬件解法则是自研芯片。在CVPR举办期间,小鹏正式发布其最新车型G7,全球首款L3级AI汽车,首发搭载三颗自研图灵AI芯片,为高阶自动驾驶提供了充足冗余能力。
小鹏汽车的这场CVPR分享,更像是一位资深研发员摊开设计图与实验数据,向同行们讲述团队解决问题的过程。从验证扩展法则,到拆解“思考型”模型训练细节,再到公布软硬一体的部署方案,小鹏带来了一套完整的、在真实世界里跑出来的工程体系,展现了工业界如何通过海量真实数据和扎实工程实践反哺学术探索,为物理世界AI打开全新可能性。