近日,宇树科技宣布正式开源其最新研发的通用人形机器人操作大模型——UnifoLM-VLA-0。该模型基于视觉-语言-动作(VLA)架构,通过整合机器人操作数据与多模态预训练技术,实现了从传统图文理解向具备物理交互能力的"具身智能"的跨越式发展。
针对机器人操作场景中指令理解与空间感知的特殊需求,研发团队创新性地构建了包含2D/3D空间信息的预训练数据集。该数据集覆盖2D检测分割、任务层级分解、3D目标检测等八大维度,通过持续预训练使模型具备精准的空间位置推理能力。实验数据显示,在真机验证环节,单一策略网络即可完成包括抓取、放置、工具使用等在内的12类复杂操作任务。
技术实现层面,模型以Qwen2.5-VL-7B开源模型为基础,通过系统化清洗约340小时真机操作数据,构建了包含离散动作标注的动力学预测数据集。研发团队引入动作分块预测机制与双向动力学约束,使模型能够统一建模动作序列,显著提升对物理交互规律的理解能力。这种设计支持长时序动作规划,在零样本测试中展现出强大的任务泛化性能。
在性能评估方面,该模型在三个权威空间理解基准测试中均取得突破性进展。对比基线模型Qwen2.5-VL-7B,其空间感知能力提升达47%,在"no thinking"模式下更达到与Gemini-Robotics-ER 1.5相当的水平。特别在LIBERO仿真基准测试中,多任务处理性能接近理论最优值,验证了单模型通用化的可行性。
真机实验环节,基于宇树G1人形机器人平台构建的12类操作任务数据集发挥了关键作用。通过统一端到端训练策略,模型在单一策略checkpoint下实现全部任务稳定执行,即使在外部扰动条件下仍保持89%以上的任务成功率。这种抗干扰能力为机器人实际部署提供了重要保障。
目前,该项目已完整开源模型代码与训练数据集,开发者可通过项目主页(https://unigen-x.github.io/unifolm-vla.github.io/)获取技术文档,或访问GitHub仓库(https://github.com/unitreerobotics/unifolm-vla)参与社区开发。此次开源将推动具身智能领域的技术共享与生态建设,为通用人形机器人的商业化落地奠定基础。











