ITBear旗下自媒体矩阵:

复旦大学新突破:机器人学会“自主探索” 适应新环境更高效

   时间:2026-07-01 00:13:36 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

当一台训练有素的机器人被更换摄像头角度后,其任务执行能力往往会大幅下降,这一困扰机器人工程领域的难题近日取得突破性进展。复旦大学联合上海创新研究院、同济大学的研究团队提出一种名为"上下文世界建模"(ICWM)的创新方法,使机器人能够通过自主探索快速适应新视角,相关成果已发表于arXiv预印本平台。

传统机器人依赖视觉-语言-行动模型(VLA)执行任务,这类系统在训练时会隐式记忆摄像头位置等环境参数。当摄像头角度改变时,即使面对相同物体,机器人也会因视觉输入差异产生误判,导致抓取失败或动作偏移。研究团队将此问题定义为"系统配置缺失",指出传统解决方案需要重新采集新视角数据并重新训练模型,存在成本高、泛化性差等缺陷。

ICWM方法的核心创新在于引入"主动探测"机制。在正式执行任务前,机器人会在安全区域内进行随机机械臂运动,通过记录动作前后的视觉变化,构建对当前视角的"环境摸底报告"。这一过程无需任何任务相关操作,仅通过观察自身动作引发的视觉反馈,即可推断出摄像头位置等系统配置信息。研究团队将此过程类比为人类初次使用陌生遥控器时,通过随机按键观察屏幕反应来建立操作认知。

技术实现层面,ICWM未增加新模块或参数,而是让原有视觉语言模型同时承担系统配置识别与任务动作生成双重功能。推理过程分为两个阶段:首先通过随机探测建立探测上下文,随后将上下文与当前观测画面、任务指令共同输入模型,生成精准动作。该机制在真实机器人平台上仅需5-6秒探测时间,且整个任务周期仅需执行一次,对控制循环稳定性影响极小。

实验数据显示显著性能提升。在仿真环境中,面对6个未训练视角时,ICWM较普通多视角训练模型成功率提升13%,甚至优于明确告知摄像头角度的基线模型9.5个百分点。长程任务中优势更为突出,新视角下成功率提升达26.3%。真实机械臂测试中,当摄像头从训练视角切换至新视角时,普通模型成功率从68%骤降至17%,而ICWM将成功率维持在较高水平,在抓取任务中表现尤为突出,成功率提升达90%。

研究团队从信息论角度证明,动作序列与视觉变化的组合包含的系统配置信息量,严格大于单张画面。数学推导显示,即使是完全随机的探测动作,也能提供有效信息帮助模型理解当前环境。实际测试中,四种不同探测策略(完全随机、水平移动、垂直移动、朝向改变)均带来15%-27%的性能提升,验证了探测机制的有效性而非具体动作设计。

该方法展现出良好的泛化能力。在场景语义变化测试中,面对干扰物品和新材质桌面,ICWM仍保持优势;在机器人形态变化测试中,通过探测阶段感知的运动反馈,模型能隐式推断夹爪有效长度,在连杆长度变化场景下成功率下降幅度较普通模型减少45%。计算开销测试表明,加入5段探测片段后推理延迟仅增加0.073秒,通过KV缓存技术可进一步消除额外计算成本。

针对模型是否真正理解系统配置的质疑,研究团队设计多项验证实验。当提供错误探测上下文时,模型性能显著下降,证明其确实依赖上下文信息;未经ICWM训练的普通模型无法利用探测片段提升性能,说明该能力需专门训练获得;模型内部表示可视化分析显示,不同视角的探测上下文形成明显聚类,验证了系统配置识别的有效性。

这项研究为机器人泛化能力提供了新思路。通过"先探索后执行"的框架,机器人能够在未知环境中快速适应摄像头角度、机械臂形态等系统配置变化。该方法在工业自动化、服务机器人等领域具有潜在应用价值,特别是在需要快速部署于多样化场景的实际情况中,可显著降低环境适配成本。论文详细技术方案可通过编号arXiv:2606.26025查阅。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version