机器人领域迎来重要进展,宇树科技正式开源其最新研发的视觉-语言-动作(VLA)大模型UnifoLM-VLA-0。这款模型突破了传统视觉语言大模型(VLM)在物理交互方面的瓶颈,通过专项预训练技术,将单纯的图文理解能力升级为具备物理常识的"具身智能",为机器人操作提供更强大的认知支撑。
作为UnifoLM系列的首个操作型模型,UnifoLM-VLA-0以开源的Qwen2.5-VL-7B为基础架构,采用通用场景与机器人场景相结合的多任务数据集进行持续训练。这种设计使模型在几何空间感知与语义逻辑理解方面形成精准对齐,特别强化了对三维空间关系的解析能力。研发团队通过构建全链路动力学预测数据集,有效提升了模型的任务泛化性能。
该模型的创新性体现在架构设计与数据处理两个维度。技术团队在模型顶层集成了动作预测模块,同时对训练数据实施系统化清洗流程,最终仅使用约340小时的真实机器人操作数据,就实现了复杂动作序列的统一建模。通过引入动作分块预测机制与动力学约束算法,模型能够完成长时序操作规划,这在同类模型中属于领先水平。
性能评估显示,UnifoLM-VLA-0在多个空间认知基准测试中表现优异,其核心指标较基础模型提升幅度显著。在"无思考"模式下,该模型的操作精度已达到国际先进水平,与Gemini-Robotics-ER 1.5模型不相上下。在LIBERO仿真测试平台上,其多任务处理能力更接近理论最优值,验证了架构设计的有效性。
实际部署测试进一步证实了模型实用性。在宇树G1人形机器人平台上,单一策略网络即可精准执行开抽屉、插拔电源、物品抓取等12类复杂操作。特别值得关注的是,当面临外部干扰时,系统仍能保持操作稳定性,展现出较强的环境适应能力。这种鲁棒性源于训练阶段对扰动场景的专项优化。
目前,该模型的完整技术文档与开源代码已在GitHub平台公开,全球开发者均可自由获取。此举将加速具身智能技术的普及,为机器人操作系统的研发提供新的技术路径。项目负责人表示,持续优化的数据集与训练方法将是后续研发的重点方向。











