滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

英伟达首次开源自动驾驶VLA，Robotaxi进入「安卓时刻」，吴新宙带队全华班出品

时间：2025-12-02 14:41:57 来源：智能车参考编辑：快讯 IP：北京 发表评论无障碍通道

做Robotaxi和造手机一样简单是啥体验？

英伟达，刚刚在AI顶会NeurIPS上发布了Alpamayo-R1——

英伟达的第一个自动驾驶VLA，各项性能比传统端到端强超过30%，而且发布即开源。

多模态大模型一统自动驾驶趋势下，Robotaxi门槛可能真的大大降低：芯片直接买英伟达，算法也可以借鉴移植英伟达的VLA，自己再做一些风格、场景的特调……就和手机厂商一模一样。

老黄的自动驾驶野心彻底不藏了：英伟达，要做成自动驾驶赛道的“安卓”。

Alpamayo-R1解决了什么问题

说来也有趣，英伟达本身是端到端自动驾驶的“祖师爷”，而最新的VLA研究，要解决的主要问题却是端到端的缺陷。

端到端系统从感知到控制一气呵成，采用人类成熟司机的数据训练，理论上可以无限“拟人”，处理各种Corner case。

但事实是已量产的系统依然经常翻车——比如：迎面来车违规左转、行人突然闯入、临时施工、交通标志被遮挡等等。

端到端折戟Corner case的根源，英伟达归因为端到端局限性——看得见，但看不懂，也就是常说的“黑盒”特性。

英伟解决问题的思路是视觉-语言-动作模型，即流行的VLA。

先直接看结果：

对比的Baseline模型和Alpamayo-R1都是在英伟达构建的CoC数据集上训练的，这本身也是这项研究的一个重要组成部分。

CoC的意思是因果链，这是模型可解释性的重要根源依据。

而对比实验中的Baseline模型，是在CoC数据集上训练的纯轨迹输出模型，本身不具备推理能力。

实验中的性能提升体现在：

规划精度提升12%、越界率降低35%、近碰率降低25%、推理-行动一致性提升37%、端到端延迟降低到99ms。

所以，Alpamayo-R1提升主要体现在以往最容易出错的场景中 —— 也就是说，它更接近“真正会判断的司机”。

之前是完全不知道端到端能不能看懂，那么现在，英伟达又如何确认模型能“看懂”呢？

如何解决的

Alpamayo-R1的重要工作包括3点，首先就是前面提到的Chain of Causation（因果链）数据集。

这是一套全新的数据标注体系，每一段驾驶数据不仅有“做了什么”，还有“为什么这样做”，比如“减速并左变道，是因为前方有助动车等红灯，且左侧车道空闲”：

CoC本身是对CoT的发展和延伸，主要在“因果”上下功夫，基本上避免了CoT数据集行为描述模糊、因果关系混淆、行为推理与因果关系脱节等等问题。

当然了，CoC的标注校准，仍然离不开人工。

AR1本身则是基于NVIDIA的Cosmos Reason模型，这是一种专为物理 AI（Physical AI）设计的推理视觉语言模型：

整体结构上最大的特点是基于因果结构化推理而非自由叙事，意思是模型必须依据历史可观测证据，解释操作的安全性与合规性——

这是第二个重要创新点，采用Multi-Stage Training（多阶段训练策略）：

首先在大规模驾驶数据上做模态注入，学习从视觉到动作的基本映射；

第二阶段在CoC因果链数据上做监督微调，教会模型「先想清楚再开」；

最后通过强化学习（RL）进一步优化推理质量、推理-行动一致性和轨迹安全性。

这种分阶段、分目标的训练流程，使得模型在开放场景、长尾危险场景中表现更加稳健。

在轨迹输出阶段，AR1引入了一种基于扩散模型的轨迹解码器，能在实时约束下生成连续、动态可行的驾驶轨迹。该模块结合语言推理输出与物理约束，实现从推理到控制的无缝衔接：

扩散模型和基本原理是通过一个前向过程逐渐添加噪声到数据上，直到数据变成完全随机的噪声，然后再通过一个后向过程逐步去除噪声，从而生成新的数据样本。

这种生成方式使得模型能够捕捉数据的复杂分布，并且可以通过控制噪声的添加和去除过程来生成多样化的样本。

总结一下AR1的流程和原理。和其他自动驾驶系统一样，输入由多相机、多时序观测帧组成，同时可以选配高层语言输入（如导航指令或驾驶目标）。

而所有输入（包括历史自车运动）会被统一编码成多模态token序列，按时序和传感器顺序排列，再送入主干模型 Cosmos-Reason进行推理与预测。

其中，每个相机视角先经过轻量级CNN与时间注意力模块做特征压缩与时序建模，随后融合为 BEV（鸟瞰图）表征。之后，所有模态（图像、导航文本、自车状态）被token化后统一输入Transformer。

模型的输出则包含三类token：推理链（reasoning traces）、中层动作（meta-actions）与未来轨迹预测（trajectories）。

最大的创新点，就是让多模态自动驾驶模型具备可解释的语义理解能力，且能够与与运动状态感知联系起来，做到有明确因果对应关系的输入-输出。

Alpamayo-R1从何而来

Alpamayo-R1当然可以算作VLA模型，但又和业内现在常见的“端到端+大语言模型外挂”的VLA有根本不同。

Alpamayo-R1完全是原生的多模态模型，基础是英伟达年初CES上的发布的Cosmos基础世界模型中的Cosmos Reason。

Cosmos本身其实是英伟达链接AI和物理世界的“中间层”，给千行百业提供最基础的物理AI“安卓”模板——“通才”型世界模型。

基座模型的训练方法——扩散模型和自回归模型，其中基于扩散的WFM，预训练包括“文本到世界生成预训练”以及“频到世界生成预训练”；基于自回归的 WFM，预训练则包括“下一个token生成”以及“文本条件的视频到世界生成”。

对应到Alpamayo-R1，预训练其实就是CoC数据集的训练过程。

而Alpamayo-R1的基座模型本身，则是Cosmos Reason，Cosmos的AI推理模型扩展，主要能力是通过思维链推理理解视频数据。

这次的Alpamayo-R1，其实也在印证老黄在AI浪潮中给英伟达规划的新布局——计算基础设施之外，还要做机器人、自动驾驶等等物理AI的底层“安卓”。

首先是Alpamayo-R1本身与其说强调基座模型的能力，倒不如说是老黄卖力吆喝这套VLA的架构范式和训练方法——Alpamayo-R1灵活开放，可以兼容各种基座大模型。

研究真正的价值，其实是CoC数据集的全新标注体系，以及可以利用思维链推理场景因果关系的大模型范式。

老黄早就多次阐述，物理AI是英伟达认定的下一阶段人工智能“风口”，其中最关键的环节，就是构建链接物理世界和AI的“中间层”。千行百业，甚至没有强AI算法能力的公司、个人，都可以用强大的基座模型和流程工具打造属于自己的产品。

就比如说Robotaxi，英伟达前不久官宣了自己的Robotaxi战略，有车有方案，还签了Uber作为合作方。

但真正的目标，是打破Robotaxi目前的“封闭”模式。

在底层硬件层，统一芯片、传感器的驱动接口，无论车企用的是禾赛还是速腾的激光雷达，都能直接适配英伟达的算法，避免硬件不兼容的研发内耗。

核心算法层面，就是这次刚刚开源的Alpamayo-R1，提供L4级自动驾驶的基础能力，支持玩家通过 API 进行定制化优化，比如在校园场景中强化行人识别，在高速场景中优化变道逻辑。

至于上层招车、调度、计费、维保等等功能接口，有实力的出行平台可以接入自有APP，而英伟达也可以在底层直接开放，只需接入接口就能快速上线Robotaxi服务。

如果说马斯克的多模态大模型路线对传统L4是一次前所未有的技术挑战的话，那英伟达开源Alpamayo-R1，其实是对整个Robotaxi商业模式的冲击——

L4玩家自持车队、自建平台的成型窗口期，越来越短了。

因为借助英伟达全栈软硬件方案，大量本来没有实力进军Robotaxi的传统网约车平台、出租车公司，现在“开箱即用”了。

所以，自动驾驶赛道最终也会形成“安卓”和“苹果”对垒的局面吗？

对应安卓和苹果的，会是英伟达和特斯拉吗？

One more thing

端到端的“开山之作”，其实就是英伟达2016年的论文End to End Learning for Self-Driving Cars，只不过当时的架构还是基于传统卷积神经网络。

后续Transformer威力显现出来后，端到端思路首先被特斯拉应用量产，直到今天仍然是汽车工业转型最重要的路径。

不过对于头部实力玩家以及“祖师爷”英伟达，端到端如今成了需要“被颠覆”的老旧技术范式——在英伟达领导前沿这项技术探索的，是我们的老熟人——吴新宙：

Alpamayo-R1的作者团队，也几乎清一色华人班底：

甚至，英伟达还详细列出了每个贡献者参与的环节：

更多>同类资讯

雷军发文为舒淇庆生：愿小米汽车代言人从容微笑继续前行

04-16

马斯克官宣特斯拉AI5自驾芯片流片，AI6研发遇阻股价却逆势大涨

04-16

英伟达携手Cadence：以虚拟训练突破机器人AI学习瓶颈

04-16

电商老板大圭用AI替代总监层：拆解经验建系统，重构组织新模式

04-16

新能源商旅管理新趋势：2026年六大平台测评与集团转型全攻略

04-16

雷军发文为舒淇庆生

04-16

小米史上最大电池手机来了预计5月发布

04-16

苹果为升级Siri 安排大批工程师参加AI编程集训

04-16

马斯克称特斯拉AI5芯片已流片 AI6和Dojo3也在研发

04-16

REDMI K90 Max确认搭载天玑9500+独显芯片D2：为满血游戏体验而生

04-16

小米18 Pro Max配备8500mAh超大电池：支持百瓦闪充+无线充

04-16

继HappyHorse后阿里又有一款模型登顶权威评测榜单

04-16

半年狂奔，五天雪崩：报废手机无人接盘

04-16

百度申请注册DuClaw商标

04-16

谷歌母公司在SpaceX持股比例揭晓 IPO有望带来千亿美元回报

04-16

点击查看更多 +

全站最新

中国2026年第一季度GDP同比5%，高于预期

网易2025年成绩单亮眼：营收破千亿达1126.26亿，净利润348亿

科大讯飞AstronClaw全栈升级九大创新引领AI Agent迈向真实物理世界

港股芯片股集体上涨，壁仞科技涨超18%

恒科指涨3%

A股AI应用股全线上涨，昆仑万维、蓝色光标涨超5%

热门内容

本栏最新

网易2025年成绩单亮眼：营收破千亿达1126.26亿，净利润348亿

科大讯飞AstronClaw全栈升级九大创新引领AI Agent迈向真实物理世界

中国Abot-world系列世界模型双冠加冕，具身智能领域领跑全球

48小时极限挑战！小红书黑客松如何点燃00后开发者创造力？

张雪携宁王入局电摩：以赛道调校与电池革新，能否开启高端新篇？

小米推出「电池升级」服务，Xiaomi 13系列手机有望更换大容量电池提升续航

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.