上海交通大学联合多家科研机构与企业的研究团队,在机器人技术领域取得突破性进展。他们开发的Mantis系统通过创新框架设计,使机器人具备"视觉预见"能力,能够像人类一样预测未来场景并规划动作序列。这项成果已发表于计算机视觉领域权威会议,论文编号arXiv:2511.16175v1。
传统机器人系统如同初学步的孩童,只能基于当前视觉输入做出即时反应。研究团队发现,这种"走一步看一步"的模式导致学习效率低下,就像试图通过静态照片学习骑自行车般困难。更严峻的是,现有系统在掌握动作技能后,往往丧失理解复杂语言指令的能力,形成"技术专精却沟通障碍"的困境。
Mantis系统的核心创新在于"解耦视觉预见"框架。该设计将未来画面预测与动作执行两个核心任务分离处理,通过潜在动作查询技术建立关联。这种技术如同在机器人大脑中植入"动作侦探",能精准捕捉当前场景与未来画面间的关键变化,并将动作指令传递给执行模块。实验表明,这种解耦设计使系统学习效率提升数倍。
研究团队采用渐进式训练策略,模拟人类学习过程。首阶段通过海量人类操作视频训练预测模型,次阶段引入真实机器人数据强化动作衔接,最终阶段融入语言理解训练。这种三阶段训练法使系统在保持操作精度的同时,具备理解复杂指令的能力。测试显示,系统能准确识别"把杯子放到泰勒·斯威夫特身上"等指令中的语义关联。
自适应时序集成技术是该系统的另一亮点。这项技术可根据任务复杂度动态调配计算资源,在精细操作时启动全功率计算,简单移动时自动降频运行。这种智能调节机制使系统推理计算量减少50%,而任务成功率保持不变。在LIBERO仿真平台上,Mantis以96.7%的成功率超越多个先进系统,学习速度更是达到传统方法的3-5倍。
真实场景测试验证了系统的泛化能力。研究团队设计了包含世界知识、基础推理和意图理解的三阶段测试。在处理"把熊放到数字(3+5)上"等新颖指令时,Mantis展现出显著优势,而当前领先的π0.5模型则表现不佳。这证明语言监督训练对维持机器人认知能力的重要性。
技术分析显示,视觉预见模块的残差连接设计对捕捉潜在动作信息至关重要。通过人类操作视频预训练的方式,使系统能快速掌握基础操作模式。但研究也指出当前局限:系统缺乏机器人本体状态感知,导致偶尔出现动作回退。未来改进方向包括整合3D点云数据和优化推理算法。
这项突破为机器人技术发展开辟新路径。通过系统架构创新,Mantis成功平衡了操作精度与认知能力,这种平衡对机器人融入人类生活场景具有关键意义。从家庭服务到工业生产,具备视觉预见能力的机器人有望在多个领域引发变革。











