滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

ByteDance与港大联手：WoG技术赋能机器人“预见未来”精准决策

时间：2026-02-28 03:09:12 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

机器人技术领域迎来一项突破性进展，一项名为WoG（World Guidance）的新技术让机器人获得了类似人类的“预知”能力。这项由科研团队开发的技术，使机器人能够提前“看到”未来几秒内环境的变化，并基于这些信息做出更精准的动作决策。这一成果标志着机器人从“被动反应”向“主动预判”的跨越，为智能机器人发展开辟了新路径。

传统机器人控制依赖即时感知数据，如同“近视眼”般只能看到当前场景。例如，当机器人抓取杯子时，它仅能根据杯子当前位置规划路径，若桌上有其他物品或杯子移动，极易发生碰撞或失败。而WoG技术赋予机器人“透视眼”能力，使其能预测抓取过程中可能遇到的障碍物、物体移动轨迹及对周围环境的影响，从而选择最优操作路径。这种能力通过“条件空间”概念实现——机器人只需提取对当前动作有指导意义的关键信息，而非预测所有细节，既保证了准确性，又提升了计算效率。

WoG技术的核心在于两阶段训练策略。第一阶段，机器人通过多个预训练视觉模型（如识别物体语义的DINOv2、捕捉动态变化的VAE）获取“未来信息包”，并利用Q-Former组件将其压缩为紧凑的“未来条件”。这一过程如同为机器人配备“望远镜”，使其学会观察未来环境变化。第二阶段，系统冻结未来信息提取器，训练机器人仅凭当前观察数据推断未来条件，实现从“依赖外部信息”到“凭直觉决策”的转变。这种策略避免了直接预测复杂未来画面的高计算成本，转而聚焦对动作决策至关重要的“精华信息”。

研究团队还创新性地利用海量人类操作视频训练机器人。通过“精英教学法”，机器人学习少量带详细动作标注的高质量视频，同时从大量无标注视频中培养预判能力。团队探索了UMI（Universal Manipulation Interface）数据的应用——这种通过头戴设备记录的人类第一人称操作视角数据，尽管与机器人视角差异显著，WoG技术仍能从中提取有效预判知识。例如，加入120个UMI轨迹后，机器人在抓取任务中的成功率从60%跃升至85%，折叠任务成功率提升33%，证明了技术的强适应性和泛化能力。

在SIMPLER仿真环境中，WoG技术展现了显著优势。在抓取可乐罐任务中，其成功率达89%，远超传统方法的72.7%；在需精确轨迹规划的移动任务中，成功率从40-70%提升至82.5%；处理抽屉开关等机械约束任务时，也表现出良好适应性。研究还发现，结合语义理解（SigLIP）与动态捕捉（VAE）的视觉编码器组合，能提供最全面的未来预知能力。真实机器人平台测试中，WoG技术在刚体操作（如放置杯子）、关节操作（如关闭微波炉门）及柔性物体操作（如折叠毛巾）任务中，成功率均显著优于其他方法，且在环境变化（如调整光照、更换物体形状）时表现更稳定。

技术架构设计上，WoG通过“条件提取器”实现智能信息过滤。该系统输入端连接多个专长不同的视觉模型，Q-Former组件利用交叉注意力机制，从海量未来信息中筛选出16类关键数据，最终压缩为32维紧凑表示。第二阶段训练采用“知识蒸馏”策略，通过匹配视觉语言模型的隐藏状态与外部未来条件，使模型内化预判能力。这种“少即是多”的设计哲学，在降低计算复杂度的同时，确保了系统实时运行能力。

与传统方法相比，WoG技术巧妙规避了主要缺陷。视觉-语言-动作模型（如π0、OpenVLA）因缺乏未来预判，在复杂任务中表现受限；世界动作模型（如VPP）试图预测完整未来视频，却因包含大量无关细节导致计算昂贵且易引入噪声；潜在动作模型（如UniVLA、Moto）虽能实现跨任务泛化，但缺乏执行精细操作所需的具体信息。WoG技术通过条件预测，在抽象性与执行细节间取得平衡，在几乎所有测试任务中均取得最佳性能，尤其在需精确轨迹规划和碰撞避免的场景中优势突出。

这项研究的意义不仅限于技术突破。它证明机器人可通过学习获得类似人类的直觉与预判能力，为创造真正智能的机器人助手奠定基础。未来，家用机器人或能在厨房中精准避开障碍物抓取物品，在整理房间时预判物品移动，其行为将更接近有经验的人类。更值得关注的是，WoG技术通过从海量人类操作视频中学习，降低了对昂贵真实操作数据的依赖，使机器人能像人类通过观看教学视频学习技能一样，高效积累操作经验。

更多>同类资讯

腾势汽车官宣王力宏为品牌全球代言人 N9闪充版将于5月18日上市

05-15

线控底盘、马赫芯片、5C电池全新一代理想L9正式发布 45.98万元起

05-15

走进“东数西算”枢纽：中电标协探访先进存力实践样本

05-15

华为云INSPIRE创想者大会将启，Agentic AI新品与生态布局齐亮相

05-15

OpenAI首席财务官：1220亿美元融资后仍有空间，未来或借公开市场筹资

05-15

通用AI热潮涌动，章文俊院士上理工发声：专用智能或成更优解？

05-15

AI赋能照明行业转型：行业白皮书发布，解锁智慧低碳新未来

05-15

人工智能赋能教育变革：以虚强实打造人机协同智慧教育新生态

05-15

宁波慈溪启航新未来：国内首个人形机器人训练场助力产业智能化升级

05-15

AI编程新战场：OpenAI与Anthropic激战正酣，谁将定义开发者未来？

05-15

Codex移动版实测：与IM入口思路不同，OpenAI探索AI coding新路径

05-15

荣耀Robot Phone戛纳惊艳亮相，李健官宣Q3发布，开启移动影像新征程

05-15

三星研发新一代移动HBM封装技术，突破瓶颈助力端侧AI大模型运行

05-15

腾势汽车牵手王力宏任全球代言人旗舰N9闪充版5月18日携新科技登场

05-15

三星研发新一代HBM技术助力移动设备端侧AI实现性能跃升

05-15

点击查看更多 +

全站最新

机器人项目初期高压电池定制难？这家源头工厂几十组起订也能灵活应对

华为云INSPIRE创想者大会将启，Agentic AI新品与生态布局齐亮相

保时捷销量下滑遇冷，小米汽车崛起成新势力，技术创新成关键？

小米汽车再发力！5月底发布“纯血GT”YU7 GT，跑车级SUV兼具性能与续航

小米YU7 GT赛道红内饰揭秘：红黑撞色搭配专属刺绣性能与豪华完美融合

小米YU7 GT“车厘子红”实车明日到店，全国82城268店即将同步展示

热门内容

本栏最新

哈曼以AI与本土化双轮驱动引领汽车智能化体验新变革

荣耀官宣：全球首款机器人手机Robot Phone三季度登场，携手阿莱共探影像新境

2026青岛车载储能充电车：技术革新引领，多场景补能新实践

杭州互联网法院“司法指数”：AI风险、数据制度、老年权益成新焦点

2026全球人工智能终端展深圳启幕 300余家企业携数千款新品共绘AI新蓝图

2026中国重庆智能汽车技术展开幕多领域成果亮相共促产业升级

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.