近日,宇树科技宣布开源其最新研发的通用人形机器人操作大模型UnifoLM-VLA-0,标志着视觉-语言-动作(VLA)领域的技术突破。该模型基于Qwen2.5-VL-7B开源框架构建,通过整合机器人操作数据与通用场景的多任务数据集,实现了从传统图文理解向具备物理常识的"具身智能"的跨越式发展。
针对机器人操作任务中指令理解与空间感知的核心需求,研发团队创新性地构建了包含2D检测分割、3D目标定位、空间推理及轨迹预测的多维数据集。通过约340小时的真机操作数据预训练,模型实现了文本指令与空间信息的深度融合,在单一策略网络下即可完成12类复杂操作任务。实验数据显示,该模型在真机环境中展现出卓越的抗干扰能力,即使面对外部扰动仍能保持稳定执行。
技术实现层面,模型采用动作分块预测与双向动力学约束机制,构建了全链路动力学预测模型。这种设计使系统能够统一建模动作序列,深入理解机器人与物体的物理交互规律,从而支持长时序动作规划。在LIBERO仿真基准测试中,多任务模型性能接近理论最优值,验证了其单模型处理多任务的能力。
评估结果显示,UnifoLM-VLA-0在空间感知与理解能力上较基础模型提升显著,在"no thinking"模式下可与Gemini-Robotics-ER 1.5等国际先进模型媲美。基于该模型的动作预测头(ActionHead)集成方案,为机器人提供了更精准的决策支持,在仿真与真实环境中均验证了其通用性优势。
目前,宇树科技已开放模型代码与数据集下载,项目主页提供详细技术文档与演示案例。这一开源举措有望推动具身智能领域的技术发展,为通用人形机器人的商业化应用奠定基础。相关资源可通过GitHub平台获取,开发者可基于现有框架进行二次开发与创新应用。











