ITBear旗下自媒体矩阵:

英伟达DreamZero模型突破:跨具身迁移实现,机器人通用智能迎来新篇章

   时间:2026-02-09 15:10:13 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

在具身智能领域,实现通用复杂任务的核心在于构建完善的世界模型,但当前大多数世界模型存在明显短板——它们往往在特定硬件平台上训练,缺乏跨具身迁移能力。这种局限性导致机器人学到的更多是“特定设备如何运动”,而非“物理世界如何运作”。为突破这一瓶颈,英伟达GEAR实验室提出名为DreamZero的创新方案,通过构建基于视频扩散模型的“世界动作模型”(WAM),为机器人领域带来突破性进展。

DreamZero采用140亿参数的自回归视频扩散架构,通过联合预测未来视频帧与机器人动作,实现对物理规律的深度建模。与传统视觉-语言-动作(VLA)模型不同,该方案直接以视频作为世界状态的稠密表示,无需依赖重复示范即可从异构数据中学习多样化技能。实验室负责人Jim Fan将其类比为机器人领域的“GPT-2时刻”——研究人员仅需输入文本指令,机器人即可执行从未见过的任务,相关代码已在GitHub开源。

实验数据显示,在真实机器人场景中,DreamZero的泛化能力较现有最先进VLA模型提升超2倍。面对完全未出现的任务(如解鞋带、握手),其仍能达成39.5%的任务完成度,而传统模型因过度拟合“抓取-放置”等主导训练行为,在新任务上表现乏力。研究团队通过6种测试场景验证模型能力:在AgiBot预训练中,模型在未见对象的新环境中取得62.2%的平均进度;在异构数据集DROID上,面对未出现动词的任务仍保持49%的完成度;经过任务特定微调后,模型在叠衬衫、装水果等场景中仍保持跨环境泛化能力。

跨具身迁移是该模型的核心突破。实验表明,仅需10-20分钟的人类或机器人视频示范,DreamZero即可在全新任务上提升超42%性能;更惊人的是,通过30分钟“玩耍数据”(55条轨迹)即可适配全新机器人,同时保持零样本泛化能力。这种效率较传统需要数百小时示范的方法提升数十倍,且无需针对新机器人进行大规模重训。在交互式提示测试中,机器人能根据人类自然语言指令,在开放场景中完成扇汉堡、按电梯按钮等复杂操作。

为解决视频扩散模型实时控制难题,研究团队通过三项关键优化实现突破:采用基于Flow Matching的自回归DiT主干网络,实现视频帧与动作的紧密耦合;设计异步推理机制,将真实观测反馈至KV缓存以防止误差累积;开发动作块平滑技术,在16/4/1个扩散步数下均能保持性能,最终实现150ms/动作块的7Hz闭环控制。这种设计使高维潜空间中的多步去噪过程得以高效执行,为视频模型在实时控制场景的应用开辟道路。

该研究证明,通过视频与动作的联合建模,机器人可继承关于物理规律的先验知识,从而摆脱对特定设备的依赖。从非重复数据中高效学习、在开放场景中强泛化、仅依赖视频完成跨具身迁移、对新机器人快速适配——这四大能力标志着具身智能向通用化迈出关键一步。随着模型在更多复杂场景中的压力测试,基于视频世界模型的新一代机器人基础框架正展现出巨大潜力。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version