ITBear旗下自媒体矩阵:

小米开源VLA大模型后训练全流程 助力机器人20小时掌握亚毫米级高精度操作

   时间:2026-04-27 16:43:51 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

小米公司近日在具身智能领域取得关键进展,正式对外开源其自主研发的视觉-语言-动作(VLA)大模型Xiaomi-Robotics-0的后训练全流程技术方案。这项突破性成果通过开放核心代码与训练框架,为全球机器人开发者提供了可复用的高精度操作解决方案,标志着智能机器人技术向实用化迈出重要一步。

研发团队基于预训练模型架构,仅使用20小时任务数据便完成机器人复杂操作技能的训练。在耳机收纳场景中,机械臂需在亚毫米级公差范围内完成定位,同时克服金属表面低摩擦力导致的位移偏差。通过动态轨迹修正算法,系统实现了从抓取到放置的全流程连续操作,成功突破传统工业机器人依赖高精度标定的技术瓶颈。

该模型的核心优势在于其跨模态感知能力。通过融合视觉、语言与动作数据,系统能够理解"将耳机放入充电盒"这类自然语言指令,并自动生成最优操作路径。在测试中,机器人展现出对透明材质、反光表面等特殊物体的精准识别能力,操作成功率较传统方法提升40%以上。

小米此次开源方案包含三大核心组件:预训练模型权重、后训练数据集及完整的工具链代码。开发者可通过GitHub获取从数据采集到模型部署的全流程代码,配合技术文档可快速搭建实验环境。这种"开箱即用"的设计理念,使中小团队也能基于现有硬件开展具身智能研究。

国际权威机器人平台数据显示,Xiaomi-Robotics-0模型累计下载量已突破十万次,稳居全球开源机器人模型前列。随着后训练流程的公开,全球开发者正共同优化模型在医疗手术、精密装配等场景的应用。目前已有团队基于该框架开发出显微操作机器人,可完成细胞级精度操作。

项目官网(https://robotics.xiaomi.com/xiaomi-robotics-0.html)提供详细技术文档与演示视频,开源代码库(https://github.com/XiaomiRobotics/Xiaomi-Robotics-0)包含Python实现版本及C++优化版本,支持ROS、Isaac Gym等多平台部署。开发者社区已涌现出机械臂书法、咖啡拉花等创新应用案例。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version