ITBear旗下自媒体矩阵:

双脑分工新突破:机器人“慢半拍”难题破解,控制速度大幅提升

   时间:2026-06-15 23:00:59 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

上海交通大学、上海人工智能实验室、百度智能云与香港大学联合开展的一项研究,为机器人控制系统带来了突破性进展。该团队提出了一种名为AHA-WAM(异步自适应视野世界动作模型)的新框架,通过将机器人的“规划脑”与“执行脑”分离,实现了在不牺牲智能水平的前提下,将控制速度提升最高达10.82倍。这一成果以预印本形式发布于arXiv平台,论文编号为arXiv:2606.09811。

传统机器人控制系统中,“世界-动作模型”(WAMs)技术虽能让机器人预测动作对场景的影响,但因需每步计算完整“未来视频”,导致控制频率极低,最快仅每秒5次左右。这种“看一帧、想一帧、动一帧”的模式,严重限制了机器人的响应速度。研究团队认为,将“预测未来”与“执行动作”绑定是低效的,前者无需每步更新,而后者需快速响应变化。AHA-WAM通过双模块架构解决了这一问题,使机器人能同时具备“远见”与“敏捷”。

AHA-WAM的核心设计灵感源于人类协作模式:一位“战略顾问”负责长期规划,另一位“现场执行者”负责快速响应。系统由两个“扩散变换器”(DiT)组成:视频DiT扮演“顾问”,以较低频率预测64帧的场景演化趋势,生成“分层键值上下文”作为参考笔记;动作DiT则作为“执行者”,以高频率处理16步动作序列,并通过“分层联合注意力”机制随时查阅顾问的笔记。这种时间不对称性设计,使两个模块能以最适合的节奏运行,从而提升整体效率。

为解决“参考笔记过时”问题,研究团队引入了“观测引导的视频语境路由”(OVCR)机制。该机制通过提取当前视觉图像的“路由查询”,对顾问的笔记进行局部残差更新,仅修正与当前观测不符的部分,而非重写整个笔记。这一设计以极低计算代价实现了实时校正,确保执行者始终基于最新场景信息行动。同时,本体感知信息(如机械臂关节角度)直接输入动作DiT,避免额外计算负担。

在训练阶段,团队设计了“视野自适应偏移训练”方法,通过随机引入时间偏移量,使执行者适应“中途接入”顾问笔记的场景。视频DiT配备了“滚动键值记忆”机制,通过保留最近6次分析的中间表示,扩展了顾问的“时间感知窗口”,使其能记住子任务完成状态等历史信息。这些设计共同提升了模型在长流程任务中的表现。

AHA-WAM的数学架构基于“流匹配”训练目标,同时优化动作损失与视频损失。推理阶段,视频分支仅保留中间层键值上下文供动作分支调用,大幅减少了计算量。注意力机制方面,视频分支采用完全因果掩码,确保仅依赖当前及过去信息;动作分支则被阻止直接关注未来帧,保证推理时可移除未来帧预测路径。

为进一步提升动作DiT的推理速度,研究团队进行了多项工程优化:将动作DiT、记忆模块等编译进TensorRT引擎,通过CUDA Graph技术减少调度开销;优化视频DiT的预填充路径;消除冗余计算并调整计算顺序。这些优化使10步去噪的推理延迟从415.77毫秒降至41.37毫秒,降幅超90%。团队还训练了“AHA-WAM-Flash”版本,通过“ODE蒸馏”技术将去噪步骤压缩至2步,延迟进一步降至17.56毫秒,控制频率达56.95赫兹。

实验结果显示,AHA-WAM在RoboTwin 2.0仿真基准测试中取得平均92.80%的成功率,超越了未使用机器人预训练的Fast-WAM(91.83%)和使用了大规模预训练的LingBot-VA(92.20%)。在真实机器人实验中,AHA-WAM在四项任务中的平均成功率达78.3%,明显高于Fast-WAM的68.3%和Motus的21.7%,与使用了大规模预训练的π0.5模型(76.7%)持平甚至略高。泛化测试中,AHA-WAM在“进度分”上以35.00分优于π0.5的33.25分,表明其在遇到分布外情况时能完成更多子步骤。

消融实验验证了各组件的必要性:朴素异步版本(仅解耦视频与动作DiT)成功率骤降至88.60%;加入滚动键值记忆后回升至91.01%;单独加入OVCR时达91.47%;两者结合则达到92.80%。这表明记忆与路由机制互补,共同提升了系统性能。

该研究通过重新思考机器人控制系统的结构,为提升机器人响应速度提供了新思路。其设计哲学强调“按节奏分工”,让“远见”与“敏捷”不再冲突。这一成果有望推动家庭服务机器人、工厂协作机械手等领域的发展,使机器人能以更接近人类的频率响应环境变化,完成更多复杂任务。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version