上海人工智能实验室Intern Robotics团队近日宣布,其开发的统一视觉-语言-动作框架InternVLA-M1取得重大突破。这项发表于arXiv平台的研究(编号:2510.13778v1)通过创新的空间引导训练策略,成功解决了机器人理解复杂指令并精准执行动作的难题。实验数据显示,该系统在多个基准测试中超越现有方法,特别是在真实世界杂乱环境中的表现提升超过20%,为通用机器人研发开辟了新路径。
传统机器人系统在执行"将桌上红色苹果放入篮子"这类任务时面临双重挑战:既要理解人类语言的模糊性,又需在三维空间中精准定位物体。研究团队提出的解决方案借鉴人类认知模式,构建了包含41亿参数的双系统架构。该系统由VLM规划器和动作专家组成,前者负责分析任务要求、识别物体位置并制定行动计划,后者则将高层规划转化为精确的机械臂控制信号。这种分工模式使系统在单张RTX 4090显卡上即可实现每秒10帧的推理速度,内存占用控制在12GB以内。
训练策略的创新是该研究的核心突破。团队采用分阶段训练法:首先通过230万个空间推理样本构建基础能力,涵盖物体检测、点定位、轨迹预测等核心任务;随后在仿真环境中生成24.4万个可泛化场景,训练系统将空间理解转化为具体动作。这种"先理解空间再执行动作"的策略,使系统在SimplerEnv测试中成功率提升14.6%,在真实世界杂乱场景中的表现提升达20.6%。特别是在长时程任务中,系统展现出强大的规划能力,能动态调整策略应对物理干扰和任务变更。
为支撑大规模训练需求,研究团队构建了高度逼真的仿真平台。该平台整合14716个物体模型、200余张桌子、80种光照条件和1676种纹理,通过分离物理计算与渲染过程,实现高效数据生成。每个训练样本都经过双重验证:物理引擎确保动作可行性,场景图验证器检查任务完成度。这种严格的质量控制机制,使系统在未见物体和新配置场景中仍能保持稳定性能,显著提升了仿真到现实的迁移能力。
在评估环节,InternVLA-M1展现了全方位优势。在LIBERO基准测试中,系统在空间推理和长时程任务子集上分别达到98.2%和97.5%的成功率,超越最强基线方法1.6个百分点。真实世界测试中,配备Robotiq夹爪的Franka机械臂在23个已见物体和5个已见容器的分类任务中,通过协同训练将未见物体操作成功率提升至20.6%。特别在抽屉操作任务中,系统能实时感知人为干预并调整动作序列,展现出强大的环境适应能力。
技术细节方面,研究团队设计了轻量级查询变换器连接双系统,通过梯度衰减因子平衡多模态知识学习。空间提示策略的引入,使系统在执行任务时自动激活预训练的空间感知能力。双重监督机制则确保VLM规划器与动作专家协同优化,在保持语义推理能力的同时实现高效端到端训练。这些创新使系统在处理绝对/相对位置指令时表现出色,有效解决了数据驱动模型泛化不足的问题。
该研究的公开资源为后续研究奠定基础。团队不仅发布了完整代码和模型参数,还开源了包含300万个多模态样本的训练数据集。详细的评估基准覆盖从简单抓取到复杂推理的200余个任务,为机器人学习领域提供了标准化测试平台。随着技术持续完善,这种空间引导训练范式有望推动通用机器人进入更多实际应用场景,实现更自然的人机协作。











