宇树科技近日宣布,正式开源其最新研发的通用人形机器人操作大模型UnifoLM-VLA-0。该模型基于视觉-语言-动作(VLA)架构,通过整合多模态数据与动力学预测技术,实现了从传统图文理解向具身智能的跨越式发展,为机器人物理交互能力带来突破性提升。
针对机器人操作任务中指令理解与空间感知的核心挑战,研发团队构建了覆盖2D/3D空间细节的多任务数据集。该数据集包含2D检测分割、3D目标定位、空间轨迹预测等12类任务数据,总规模达340小时真机操作记录。通过持续预训练技术,模型实现了文本指令与空间信息的深度融合,其空间推理能力较基础模型Qwen2.5-VL-7B提升47%,在"无思考"模式下达到Gemini-Robotics-ER 1.5的同等水平。
技术架构方面,UnifoLM-VLA-0创新性地集成动作分块预测与双向动力学约束模块。通过离散动作序列建模,模型可同时理解机器人运动规律与物体交互特性,支持长达60秒的复杂动作规划。在LIBERO仿真基准测试中,该模型展现出接近理论最优的多任务处理能力,单策略网络即可稳定完成开门、抓取、搬运等12类操作任务。
真机验证环节,基于宇树G1人形机器人平台构建的测试系统显示,模型在单一策略checkpoint下实现100%任务完成率。面对外部扰动时,其执行鲁棒性较传统方法提升3.2倍,抗干扰能力达到工业级应用标准。研发团队透露,该模型已成功应用于智能制造场景,可自主完成零件分拣、设备调试等精细化操作。
目前,项目代码与数据集已通过GitHub平台完全开源,包含预训练模型权重、数据构建工具链及真机部署指南。开发者可访问项目主页获取详细技术文档,或通过在线演示系统体验模型实时推理能力。此次开源标志着具身智能技术进入实用化阶段,为机器人领域的研究者与开发者提供了重要基础设施。











