做Robotaxi和造手机一样简单是啥体验?
英伟达,刚刚在AI顶会NeurIPS上发布了Alpamayo-R1——
英伟达的第一个自动驾驶VLA,各项性能比传统端到端强超过30%,而且发布即开源。
多模态大模型一统自动驾驶趋势下,Robotaxi门槛可能真的大大降低:芯片直接买英伟达,算法也可以借鉴移植英伟达的VLA,自己再做一些风格、场景的特调……就和手机厂商一模一样。
老黄的自动驾驶野心彻底不藏了:英伟达,要做成自动驾驶赛道的“安卓”。
Alpamayo-R1解决了什么问题说来也有趣,英伟达本身是端到端自动驾驶的“祖师爷”,而最新的VLA研究,要解决的主要问题却是端到端的缺陷。
端到端系统从感知到控制一气呵成,采用人类成熟司机的数据训练,理论上可以无限“拟人”,处理各种Corner case。
但事实是已量产的系统依然经常翻车——比如:迎面来车违规左转、行人突然闯入、临时施工、交通标志被遮挡等等。
端到端折戟Corner case的根源,英伟达归因为端到端局限性——看得见,但看不懂,也就是常说的“黑盒”特性。
英伟解决问题的思路是视觉-语言-动作模型,即流行的VLA。
先直接看结果:
对比的Baseline模型和Alpamayo-R1都是在英伟达构建的CoC数据集上训练的,这本身也是这项研究的一个重要组成部分。
CoC的意思是因果链,这是模型可解释性的重要根源依据。
而对比实验中的Baseline模型,是在CoC数据集上训练的纯轨迹输出模型,本身不具备推理能力。
实验中的性能提升体现在:
规划精度提升12%、越界率降低35%、近碰率降低25%、推理-行动一致性提升37%、端到端延迟降低到99ms。
所以,Alpamayo-R1提升主要体现在以往最容易出错的场景中 —— 也就是说,它更接近“真正会判断的司机”。
之前是完全不知道端到端能不能看懂,那么现在,英伟达又如何确认模型能“看懂”呢?
如何解决的Alpamayo-R1的重要工作包括3点,首先就是前面提到的Chain of Causation(因果链)数据集。
这是一套全新的数据标注体系,每一段驾驶数据不仅有“做了什么”,还有“为什么这样做”,比如“减速并左变道,是因为前方有助动车等红灯,且左侧车道空闲”:
CoC本身是对CoT的发展和延伸,主要在“因果”上下功夫,基本上避免了CoT数据集行为描述模糊、因果关系混淆、行为推理与因果关系脱节等等问题。
当然了,CoC的标注校准,仍然离不开人工。
AR1本身则是基于NVIDIA的Cosmos Reason模型,这是一种专为物理 AI(Physical AI)设计的推理视觉语言模型:
整体结构上最大的特点是基于因果结构化推理而非自由叙事,意思是模型必须依据历史可观测证据,解释操作的安全性与合规性——
这是第二个重要创新点,采用Multi-Stage Training(多阶段训练策略):
首先在大规模驾驶数据上做模态注入,学习从视觉到动作的基本映射;
第二阶段在CoC因果链数据上做监督微调,教会模型「先想清楚再开」;
最后通过强化学习(RL)进一步优化推理质量、推理-行动一致性和轨迹安全性。
这种分阶段、分目标的训练流程,使得模型在开放场景、长尾危险场景中表现更加稳健。
在轨迹输出阶段,AR1引入了一种基于扩散模型的轨迹解码器,能在实时约束下生成连续、动态可行的驾驶轨迹。该模块结合语言推理输出与物理约束,实现从推理到控制的无缝衔接:
扩散模型和基本原理是通过一个前向过程逐渐添加噪声到数据上,直到数据变成完全随机的噪声,然后再通过一个后向过程逐步去除噪声,从而生成新的数据样本。
这种生成方式使得模型能够捕捉数据的复杂分布,并且可以通过控制噪声的添加和去除过程来生成多样化的样本。
总结一下AR1的流程和原理。和其他自动驾驶系统一样,输入由多相机、多时序观测帧组成,同时可以选配高层语言输入(如导航指令或驾驶目标)。
而所有输入(包括历史自车运动)会被统一编码成多模态token序列,按时序和传感器顺序排列,再送入主干模型 Cosmos-Reason进行推理与预测。
其中,每个相机视角先经过轻量级CNN与时间注意力模块做特征压缩与时序建模,随后融合为 BEV(鸟瞰图)表征。之后,所有模态(图像、导航文本、自车状态)被token化后统一输入Transformer。
模型的输出则包含三类token:推理链(reasoning traces)、中层动作(meta-actions)与未来轨迹预测(trajectories)。
最大的创新点,就是让多模态自动驾驶模型具备可解释的语义理解能力,且能够与与运动状态感知联系起来,做到有明确因果对应关系的输入-输出。
Alpamayo-R1从何而来Alpamayo-R1当然可以算作VLA模型,但又和业内现在常见的“端到端+大语言模型外挂”的VLA有根本不同。
Alpamayo-R1完全是原生的多模态模型,基础是英伟达年初CES上的发布的Cosmos基础世界模型中的Cosmos Reason。
Cosmos本身其实是英伟达链接AI和物理世界的“中间层”,给千行百业提供最基础的物理AI“安卓”模板——“通才”型世界模型。
基座模型的训练方法——扩散模型和自回归模型,其中基于扩散的WFM,预训练包括“文本到世界生成预训练”以及“频到世界生成预训练”;基于自回归的 WFM,预训练则包括“下一个token生成”以及“文本条件的视频到世界生成”。
对应到Alpamayo-R1,预训练其实就是CoC数据集的训练过程。
而Alpamayo-R1的基座模型本身,则是Cosmos Reason,Cosmos的AI推理模型扩展,主要能力是通过思维链推理理解视频数据。
这次的Alpamayo-R1,其实也在印证老黄在AI浪潮中给英伟达规划的新布局——计算基础设施之外,还要做机器人、自动驾驶等等物理AI的底层“安卓”。
首先是Alpamayo-R1本身与其说强调基座模型的能力,倒不如说是老黄卖力吆喝这套VLA的架构范式和训练方法——Alpamayo-R1灵活开放,可以兼容各种基座大模型。
研究真正的价值,其实是CoC数据集的全新标注体系,以及可以利用思维链推理场景因果关系的大模型范式。
老黄早就多次阐述,物理AI是英伟达认定的下一阶段人工智能“风口”,其中最关键的环节,就是构建链接物理世界和AI的“中间层”。千行百业,甚至没有强AI算法能力的公司、个人,都可以用强大的基座模型和流程工具打造属于自己的产品。
就比如说Robotaxi,英伟达前不久官宣了自己的Robotaxi战略,有车有方案,还签了Uber作为合作方。
但真正的目标,是打破Robotaxi目前的“封闭”模式。
在底层硬件层,统一芯片、传感器的驱动接口,无论车企用的是禾赛还是速腾的激光雷达,都能直接适配英伟达的算法,避免硬件不兼容的研发内耗。
核心算法层面,就是这次刚刚开源的Alpamayo-R1,提供L4级自动驾驶的基础能力,支持玩家通过 API 进行定制化优化,比如在校园场景中强化行人识别,在高速场景中优化变道逻辑。
至于上层招车、调度、计费、维保等等功能接口,有实力的出行平台可以接入自有APP,而英伟达也可以在底层直接开放,只需接入接口就能快速上线Robotaxi服务。
如果说马斯克的多模态大模型路线对传统L4是一次前所未有的技术挑战的话,那英伟达开源Alpamayo-R1,其实是对整个Robotaxi商业模式的冲击——
L4玩家自持车队、自建平台的成型窗口期,越来越短了。
因为借助英伟达全栈软硬件方案,大量本来没有实力进军Robotaxi的传统网约车平台、出租车公司,现在“开箱即用”了。
所以,自动驾驶赛道最终也会形成“安卓”和“苹果”对垒的局面吗?
对应安卓和苹果的,会是英伟达和特斯拉吗?
One more thing端到端的“开山之作”,其实就是英伟达2016年的论文End to End Learning for Self-Driving Cars,只不过当时的架构还是基于传统卷积神经网络。
后续Transformer威力显现出来后,端到端思路首先被特斯拉应用量产,直到今天仍然是汽车工业转型最重要的路径。
不过对于头部实力玩家以及“祖师爷”英伟达,端到端如今成了需要“被颠覆”的老旧技术范式——在英伟达领导前沿这项技术探索的,是我们的老熟人——吴新宙:
Alpamayo-R1的作者团队,也几乎清一色华人班底:
甚至,英伟达还详细列出了每个贡献者参与的环节:








