ITBear旗下自媒体矩阵:

英伟达机器人新范式:VLA与遥操落幕,世界模型引领新未来

   时间:2026-05-10 08:38:53 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

在红杉AI Ascent 2026大会上,英伟达机器人方向负责人Jim Fan以一场颠覆性的演讲引发行业震动。他宣布视觉-语言-动作模型(VLA)与遥操作技术即将退出历史舞台,取而代之的是以世界模型为核心的新范式。这场被命名为"机器人联盟:终局之战"的演讲,揭示了具身智能领域正在经历的根本性变革。

Jim Fan通过对比语言模型的发展轨迹,提出了机器人领域的"大平行"战略。他指出,GPT系列通过预测下一个词元实现语法学习,而机器人模型应当模拟物理世界的下一个状态。这种类比并非简单模仿,而是要求构建能够理解重力、光照、反射等物理规律的通用模型。英伟达最新发布的Dream Zero系统已展现出这种能力——当输入"将代码移动到泰勒·斯威夫特图片上"的指令时,系统能自动理解视觉元素与动作的关联。

传统VLA模型的缺陷在演讲中被重点剖析。这类模型将70%参数分配给语言处理,导致视觉与动作模块成为"二等公民"。Jim Fan展示的对比实验显示,当要求机器人处理未见过的新物体时,VLA模型的成功率不足30%,而基于世界模型的新系统能达到65%。这种差距源于新范式将物理规律学习置于核心地位,而非依赖语言标注数据。

数据策略的革新同样引人注目。英伟达宣布将彻底转向人类传感器数据(Sensorized Human Data),未来两年内遥操作数据的占比将降至5%以下。研究团队通过分析200万小时的第一视角视频,发现了机器人领域的"缩放定律"——当数据量突破临界点后,模型能自发涌现出物体操作、空间推理等复杂能力。这种数据驱动的方法,使得机器人训练成本较传统方法降低了80%。

技术突破背后是算力与算法的深度融合。英伟达提出的"算力=环境=数据"公式,揭示了新一代训练框架的本质。在仿真环境中,单个GPU集群现在能同时模拟10万个平行世界,这种规模效应使得模型能在48小时内完成传统需要6个月的训练任务。DreamDojo系统的实时渲染能力,甚至能让研究人员"看到"机器人决策时的思维过程——当视频预测出现偏差时,动作执行失败的概率高达92%。

这场变革正在重塑整个机器人科技树。Jim Fan预测,物理图灵测试将在2-3年内被突破,2040年前将实现物理API标准化与自动化研究。英伟达最新路线图显示,2027年将推出具备常识推理能力的机器人基础模型,2030年实现复杂场景下的自主服务。这些目标若能实现,将标志着具身智能从实验室走向日常生活的关键转折。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version