机器人学习领域迎来重大突破——浙江大学联合南京大学、香港科技大学的研究团队,开发出一种仅通过静态图像就能让机器人掌握复杂运动技能的新方法。这项发表于arXiv预印本平台(论文编号:arXiv:2510.05057v1)的研究,为机器人运动学习开辟了全新路径。
传统机器人学习模式如同教孩子骑自行车,需要让机器人观看大量连续动作视频,从一帧帧画面中学习动作衔接。但新研究颠覆了这一认知:就像魔术师仅凭表演前后的场景就能还原整个过程,机器人通过观察两张静态图片的差异,就能推断出完整的运动轨迹。研究团队开发的StaMo系统,通过将复杂场景压缩为两个高密度数字令牌,利用令牌间的差异自然生成运动指令。
实验数据显示,集成StaMo的机器人系统在LIBERO基准测试中性能提升14.3%,真实环境操作成功率提高30%。这种提升犹如给汽车更换了更高效的引擎,不仅运行速度加快,能耗反而降低。研究团队指出,该方法突破了传统视频学习对连续时序数据的依赖,通过构建紧凑的状态表示,实现了从"看电影"到"看照片"的学习范式转变。
StaMo系统的核心在于其独特的压缩-重建机制。系统采用DINOv2视觉编码技术,将包含机器人、物体、环境的复杂图像压缩为两个1024维向量,相当于将百科全书内容浓缩成两个"超级句子"。基于扩散变换器的智能重建器,则能根据这两个向量重建原始场景,并隐含理解物体间的物理关系。研究团队发现,两个不同时刻向量的差异,恰好编码了状态转换所需的运动信息。
在模拟环境测试中,StaMo使OpenVLA模型在空间推理、物体操作、目标导向、长序列任务四个类别中的成功率分别提升12.1%、11.2%、10.6%、25.4%。真实世界实验中,短期任务成功率从30%跃升至72%,长期任务成功率从20%提升至62%。特别值得注意的是,这种性能提升几乎未增加计算负担,系统运行频率仍保持在4.02Hz的高效水平。
技术细节显示,StaMo采用分层压缩策略:DINOv2模型先提取图像高级特征,再通过轻量级变换器网络压缩为两个向量。解码器部分利用预训练的Stable Diffusion 3模型,通过流匹配目标函数直接学习最优传输路径,避免了传统扩散模型的迭代去噪过程。损失函数结合重建损失和预测损失,确保模型既保留足够信息又学习有用动态。
与传统方法相比,StaMo展现出显著优势。基于视频的方法虽能捕捉时序信息,但计算复杂度高、数据需求量大;基于状态的方法虽计算高效,但表达能力有限。StaMo通过精心设计的编码器,在紧凑性和表达性之间找到平衡点。共训练实验表明,使用相同演示数据时,StaMo通过四个伪动作序列就能将成功率从62.9%提升至84.6%。
这项技术具有广泛的应用前景。在家庭服务领域,机器人可通过少量静态图像快速学习新任务;工业自动化中,生产线能快速适应新产品;医疗机器人领域,其精确性和可解释性为安全操作提供保障。研究团队特别指出,StaMo在真实环境中的主要失败模式发生在精密抓取场景,预测动作有时会导致机械臂下降深度不足。
面向未来,研究团队计划从四个方向深化研究:提升精密操作能力、适应动态环境、优化移动平台计算效率、扩展数据多样性。他们认为,将StaMo与大语言模型、强化学习、传感器融合等技术结合,可能产生更大的协同效应。这项研究不仅推进了机器人技术发展,更为人工智能领域重新思考学习与表示的本质提供了新视角。











