滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

双脑分工新突破：机器人“慢半拍”难题破解，控制速度大幅提升

时间：2026-06-15 23:00:59 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

上海交通大学、上海人工智能实验室、百度智能云与香港大学联合开展的一项研究，为机器人控制系统带来了突破性进展。该团队提出了一种名为AHA-WAM（异步自适应视野世界动作模型）的新框架，通过将机器人的“规划脑”与“执行脑”分离，实现了在不牺牲智能水平的前提下，将控制速度提升最高达10.82倍。这一成果以预印本形式发布于arXiv平台，论文编号为arXiv:2606.09811。

传统机器人控制系统中，“世界-动作模型”（WAMs）技术虽能让机器人预测动作对场景的影响，但因需每步计算完整“未来视频”，导致控制频率极低，最快仅每秒5次左右。这种“看一帧、想一帧、动一帧”的模式，严重限制了机器人的响应速度。研究团队认为，将“预测未来”与“执行动作”绑定是低效的，前者无需每步更新，而后者需快速响应变化。AHA-WAM通过双模块架构解决了这一问题，使机器人能同时具备“远见”与“敏捷”。

AHA-WAM的核心设计灵感源于人类协作模式：一位“战略顾问”负责长期规划，另一位“现场执行者”负责快速响应。系统由两个“扩散变换器”（DiT）组成：视频DiT扮演“顾问”，以较低频率预测64帧的场景演化趋势，生成“分层键值上下文”作为参考笔记；动作DiT则作为“执行者”，以高频率处理16步动作序列，并通过“分层联合注意力”机制随时查阅顾问的笔记。这种时间不对称性设计，使两个模块能以最适合的节奏运行，从而提升整体效率。

为解决“参考笔记过时”问题，研究团队引入了“观测引导的视频语境路由”（OVCR）机制。该机制通过提取当前视觉图像的“路由查询”，对顾问的笔记进行局部残差更新，仅修正与当前观测不符的部分，而非重写整个笔记。这一设计以极低计算代价实现了实时校正，确保执行者始终基于最新场景信息行动。同时，本体感知信息（如机械臂关节角度）直接输入动作DiT，避免额外计算负担。

在训练阶段，团队设计了“视野自适应偏移训练”方法，通过随机引入时间偏移量，使执行者适应“中途接入”顾问笔记的场景。视频DiT配备了“滚动键值记忆”机制，通过保留最近6次分析的中间表示，扩展了顾问的“时间感知窗口”，使其能记住子任务完成状态等历史信息。这些设计共同提升了模型在长流程任务中的表现。

AHA-WAM的数学架构基于“流匹配”训练目标，同时优化动作损失与视频损失。推理阶段，视频分支仅保留中间层键值上下文供动作分支调用，大幅减少了计算量。注意力机制方面，视频分支采用完全因果掩码，确保仅依赖当前及过去信息；动作分支则被阻止直接关注未来帧，保证推理时可移除未来帧预测路径。

为进一步提升动作DiT的推理速度，研究团队进行了多项工程优化：将动作DiT、记忆模块等编译进TensorRT引擎，通过CUDA Graph技术减少调度开销；优化视频DiT的预填充路径；消除冗余计算并调整计算顺序。这些优化使10步去噪的推理延迟从415.77毫秒降至41.37毫秒，降幅超90%。团队还训练了“AHA-WAM-Flash”版本，通过“ODE蒸馏”技术将去噪步骤压缩至2步，延迟进一步降至17.56毫秒，控制频率达56.95赫兹。

实验结果显示，AHA-WAM在RoboTwin 2.0仿真基准测试中取得平均92.80%的成功率，超越了未使用机器人预训练的Fast-WAM（91.83%）和使用了大规模预训练的LingBot-VA（92.20%）。在真实机器人实验中，AHA-WAM在四项任务中的平均成功率达78.3%，明显高于Fast-WAM的68.3%和Motus的21.7%，与使用了大规模预训练的π0.5模型（76.7%）持平甚至略高。泛化测试中，AHA-WAM在“进度分”上以35.00分优于π0.5的33.25分，表明其在遇到分布外情况时能完成更多子步骤。

消融实验验证了各组件的必要性：朴素异步版本（仅解耦视频与动作DiT）成功率骤降至88.60%；加入滚动键值记忆后回升至91.01%；单独加入OVCR时达91.47%；两者结合则达到92.80%。这表明记忆与路由机制互补，共同提升了系统性能。

该研究通过重新思考机器人控制系统的结构，为提升机器人响应速度提供了新思路。其设计哲学强调“按节奏分工”，让“远见”与“敏捷”不再冲突。这一成果有望推动家庭服务机器人、工厂协作机械手等领域的发展，使机器人能以更接近人类的频率响应环境变化，完成更多复杂任务。

更多>同类资讯

48小时极限挑战！浦东软件园首场AI黑客松激发创新活力助力项目落地

06-15

2026年AI协作新趋势：掌握循环工程，解锁编程智能体高效协作模式

06-15

小红书或月底前秘密赴港提交IPO申请上市进程引关注

06-15

大疆Pocket负责人舒修：以创新破局，引领手持云台相机新未来

06-15

小红书或赴港IPO；智谱推新模型；卫星发射成功；多家企业合作融资动态频出

06-15

汤臣倍健：线上渠道成主力，抖音与跨境业务成今年发力新方向

06-15

赛力斯人形机器人“小赛”首秀引关注，超级工厂多款机器人助力智能生产

06-15

小米推出家庭充电机械臂：2026年商用，让电动汽车充电告别手动操作

小米发布了一款家庭充电机械臂，能够自动连接并为电动汽车充电。中国科技巨头小米进一步展示了其对未来家庭电动汽车充电的愿景，推出了一款无需驾驶员任何干预即可将车辆与充电器自动连接的机械臂系统。在发布中，小米介…

06-15

立讯精密拟赴港交所上市，业绩稳健增长，A股市值近五千亿引关注

06-15

三度流拍后终迎转机原合肥苏宁广场6.57亿成交注入商业新活力

06-15

SpaceX750亿IPO引爆太空能源赛道中国光伏企业低调布局抢先机

06-15

溜溜梅港交所上市首日飙涨，市值近百亿！创始人杨帆家族财富跃升

06-15

字节跳动或购天数智芯AI芯片，消息传出后天数智芯股价大幅上扬

06-15

视频播客热潮下，播客“老炮”程衍樑：风口未成大生意，真实感能撑多久？

06-15

亏钱却登顶市值巅峰：SpaceX 2.1万亿估值背后的太空经济逻辑

06-15

点击查看更多 +

全站最新

启境汽车获广州L3级自动驾驶路测许可携手华为乾崑共推智能出行新发展

宇树机器人“Pemba”挑战雪山：从钦博拉索起步珠峰之行待启新篇

支付宝政务AI“晓政”服务超1亿次，助力政务升级让群众办事更便捷高效

雷军用小米YU7 GT装车厘子引争议，回应称在封闭实验场内分装运输

雷军小米YU7装600斤车厘子引争议，回应称在封闭道路分装，交警谈公共道路规定

雷军武汉街头品味热干面：重温求学时光，直言味道如初几十年未改

热门内容

本栏最新

宇树机器人“Pemba”挑战雪山：从钦博拉索起步珠峰之行待启新篇

雷军用小米YU7 GT装车厘子引争议，回应称在封闭实验场内分装运输

雷军小米YU7装600斤车厘子引争议，回应称在封闭道路分装，交警谈公共道路规定

雷军武汉街头品味热干面：重温求学时光，直言味道如初几十年未改

雷军用小米YU7 GT载车厘子引争议，回应称在封闭测试场分装未违规

2026未来汽车AI技术展重庆开幕共探“AI+汽车”创新生态新路径

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.