ITBear旗下自媒体矩阵:

ByteDance与港大联手:WoG技术赋能机器人“预见未来”精准决策

   时间:2026-02-28 03:09:12 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

机器人技术领域迎来一项突破性进展,一项名为WoG(World Guidance)的新技术让机器人获得了类似人类的“预知”能力。这项由科研团队开发的技术,使机器人能够提前“看到”未来几秒内环境的变化,并基于这些信息做出更精准的动作决策。这一成果标志着机器人从“被动反应”向“主动预判”的跨越,为智能机器人发展开辟了新路径。

传统机器人控制依赖即时感知数据,如同“近视眼”般只能看到当前场景。例如,当机器人抓取杯子时,它仅能根据杯子当前位置规划路径,若桌上有其他物品或杯子移动,极易发生碰撞或失败。而WoG技术赋予机器人“透视眼”能力,使其能预测抓取过程中可能遇到的障碍物、物体移动轨迹及对周围环境的影响,从而选择最优操作路径。这种能力通过“条件空间”概念实现——机器人只需提取对当前动作有指导意义的关键信息,而非预测所有细节,既保证了准确性,又提升了计算效率。

WoG技术的核心在于两阶段训练策略。第一阶段,机器人通过多个预训练视觉模型(如识别物体语义的DINOv2、捕捉动态变化的VAE)获取“未来信息包”,并利用Q-Former组件将其压缩为紧凑的“未来条件”。这一过程如同为机器人配备“望远镜”,使其学会观察未来环境变化。第二阶段,系统冻结未来信息提取器,训练机器人仅凭当前观察数据推断未来条件,实现从“依赖外部信息”到“凭直觉决策”的转变。这种策略避免了直接预测复杂未来画面的高计算成本,转而聚焦对动作决策至关重要的“精华信息”。

研究团队还创新性地利用海量人类操作视频训练机器人。通过“精英教学法”,机器人学习少量带详细动作标注的高质量视频,同时从大量无标注视频中培养预判能力。团队探索了UMI(Universal Manipulation Interface)数据的应用——这种通过头戴设备记录的人类第一人称操作视角数据,尽管与机器人视角差异显著,WoG技术仍能从中提取有效预判知识。例如,加入120个UMI轨迹后,机器人在抓取任务中的成功率从60%跃升至85%,折叠任务成功率提升33%,证明了技术的强适应性和泛化能力。

在SIMPLER仿真环境中,WoG技术展现了显著优势。在抓取可乐罐任务中,其成功率达89%,远超传统方法的72.7%;在需精确轨迹规划的移动任务中,成功率从40-70%提升至82.5%;处理抽屉开关等机械约束任务时,也表现出良好适应性。研究还发现,结合语义理解(SigLIP)与动态捕捉(VAE)的视觉编码器组合,能提供最全面的未来预知能力。真实机器人平台测试中,WoG技术在刚体操作(如放置杯子)、关节操作(如关闭微波炉门)及柔性物体操作(如折叠毛巾)任务中,成功率均显著优于其他方法,且在环境变化(如调整光照、更换物体形状)时表现更稳定。

技术架构设计上,WoG通过“条件提取器”实现智能信息过滤。该系统输入端连接多个专长不同的视觉模型,Q-Former组件利用交叉注意力机制,从海量未来信息中筛选出16类关键数据,最终压缩为32维紧凑表示。第二阶段训练采用“知识蒸馏”策略,通过匹配视觉语言模型的隐藏状态与外部未来条件,使模型内化预判能力。这种“少即是多”的设计哲学,在降低计算复杂度的同时,确保了系统实时运行能力。

与传统方法相比,WoG技术巧妙规避了主要缺陷。视觉-语言-动作模型(如π0、OpenVLA)因缺乏未来预判,在复杂任务中表现受限;世界动作模型(如VPP)试图预测完整未来视频,却因包含大量无关细节导致计算昂贵且易引入噪声;潜在动作模型(如UniVLA、Moto)虽能实现跨任务泛化,但缺乏执行精细操作所需的具体信息。WoG技术通过条件预测,在抽象性与执行细节间取得平衡,在几乎所有测试任务中均取得最佳性能,尤其在需精确轨迹规划和碰撞避免的场景中优势突出。

这项研究的意义不仅限于技术突破。它证明机器人可通过学习获得类似人类的直觉与预判能力,为创造真正智能的机器人助手奠定基础。未来,家用机器人或能在厨房中精准避开障碍物抓取物品,在整理房间时预判物品移动,其行为将更接近有经验的人类。更值得关注的是,WoG技术通过从海量人类操作视频中学习,降低了对昂贵真实操作数据的依赖,使机器人能像人类通过观看教学视频学习技能一样,高效积累操作经验。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version