近日,科技领域迎来一项重要突破——宇树科技正式开源其最新研发的视觉-语言-动作(VLA)大模型UnifoLM-VLA-0。这款模型专为通用人形机器人操作设计,标志着人工智能在物理交互领域迈出关键一步。
传统视觉-语言模型(VLM)在处理物理世界任务时存在明显短板,例如难以理解空间关系、缺乏物理常识等。UnifoLM-VLA-0通过针对性预训练,成功突破这些限制。研发团队在机器人操作数据集上进行了深度优化,使模型能够从单纯的"图文理解"升级为具备物理认知能力的"具身大脑"。这种进化让机器人不仅能"看懂"指令,更能"感受"环境、预测动作结果。
技术实现层面,该模型创新性地融合了多模态感知与空间推理能力。针对操作任务中常见的指令理解难题,模型通过构建文本指令与2D/3D空间信息的映射关系,显著提升了空间定位精度。更值得关注的是,研发团队引入全链路动力学预测数据,使模型能够模拟物理世界的因果关系,从而在未接触过的场景中也能生成合理动作策略。
实际测试数据印证了技术突破的价值。在真实机器人验证环节,UnifoLM-VLA-0仅需单一策略就完成了12类复杂操作任务,包括精密装配、动态避障等高难度场景。任务完成质量达到行业领先水平,特别是在需要多步骤协同的操作中,模型展现出的泛化能力令人瞩目。这项成果为服务机器人、工业自动化等领域提供了新的技术路径。











