ITBear旗下自媒体矩阵:

宇树开源通用人形机器人操作大模型,展现少数据强能力新突破

   时间:2026-01-30 08:09:48 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

宇树科技近日宣布,其自主研发的通用人形机器人操作大模型UnifoLM-VLA-0正式开源。该模型通过单一策略网络实现多项复杂操作任务,在空间感知、任务推理和抗干扰能力方面取得突破性进展,标志着人形机器人向通用化能力构建迈出关键一步。

基于开源视觉语言模型Qwen2.5-VL-7B演化而来的UnifoLM-VLA-0,通过构建覆盖机器人操作与通用场景的多任务数据集进行持续预训练。该数据集整合2D检测分割、3D目标定位、空间位置推理等12类维度数据,仅使用340小时真机操作数据即完成离散动作预测训练。模型采用动作分块预测与双向动力学约束技术,使机器人能够理解"物体-机械臂"交互规律,支持更长时序的动作规划。

在空间理解能力测试中,该模型展现显著优势。在ERQA、RoboSpatial、Where2Place三项基准测试中,其"无思考模式"表现与谷歌Gemini Robotics ER 1.5持平。在LIBERO仿真基准测试中,模型以98.7分的平均成绩领先同类产品,其中"物体"子项获得满分,在长序列任务中仍保持96.2分的高水准。这种内化的空间理解能力使机器人具备低延迟实时操作潜力,特别适合动态环境下的快速响应需求。

真机实验验证了模型的泛化能力。在宇树G1机器人平台上,单一策略网络成功驾驭12类复杂任务,涵盖整理收纳、多机协作、带阻力操作等场景。实验显示,机器人能协作完成餐盘收纳、药品分装等任务,当遇到人为干扰时,仍可自主调整策略完成积木堆叠、水果分类等操作。特别在抗干扰测试中,被移走已堆叠积木的机器人能即时重新规划动作序列,展现强鲁棒性。

技术突破的背后是算法架构的创新。模型通过集成多模态感知与空间推理模块,将几何空间理解与语义逻辑对齐能力提升至新高度。在零样本场景下,机器人可自主完成目标检测、运动轨迹生成、可抓取点判断等全流程操作。这种"感知-决策-执行"的闭环设计,有效解决了传统机器人需要针对每个任务单独训练的碎片化问题。

作为全球人形机器人销量领先企业,宇树科技正加速构建软硬件协同壁垒。UnifoLM-VLA-0的推出不仅完善了其技术生态链,更通过开源策略推动行业共同发展。该模型展现的少样本训练效率与强泛化能力,为机器人从工业场景向服务领域渗透提供了关键技术支撑,有望重新定义人机协作的边界。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version