在近期举办的世界机器人大会上,阿里巴巴达摩院宣布了一项重大举措:开源其自主研发的三大核心组件,旨在加速具身智能技术的开发与应用。这三项开源成果分别是视觉-语言-动作(VLA)模型RynnVLA-001-7B、世界理解模型RynnEC,以及机器人上下文协议RynnRCP。
达摩院首次提出的RynnRCP协议,是具身智能领域的一大创新。这一协议借鉴了模型上下文协议(MCP)的理念,为机器人服务提供了一套完整的框架和协议。RynnRCP如同一座桥梁,连接了从传感器数据采集、模型推理到机器人动作执行的各个环节,使得不同模型和机器人之间的兼容与适配变得更加顺畅。目前,该协议已支持多款热门模型和机械臂,极大地促进了具身智能技术的落地应用。
RynnVLA-001-7B模型则是达摩院在视觉-语言-动作领域的又一力作。该模型能够从第一人称视角的视频中学习人类的操作技能,并将其隐式迁移到机器人手臂的操控上。这意味着,当给机器人发出指令时,它能够理解语言含义,准确识别目标物体,并执行相应的动作。例如,在实验中,RynnVLA-001-7B能够成功地将草莓从一堆物品中挑选出来,并放置到指定的位置。这一表现不仅展示了模型的强大能力,也为具身智能技术在日常生活中的应用提供了无限可能。
世界理解模型RynnEC则是达摩院在具身智能领域的又一重要突破。该模型引入了多模态大语言模型的理念,赋予了机器人理解物理世界的能力。RynnEC能够从位置、功能、数量等多个维度全面解析场景中的物体,并在复杂的室内环境中精准定位和分割目标物体。这一能力使得机器人在面对现实世界中的复杂场景时,能够做出更加智能和准确的反应。
在实验中,RynnEC-2B模型在对象认知和空间认知等多个测试中均取得了优异的成绩,超越了众多顶尖模型。这一表现不仅证明了RynnEC的强大能力,也为具身智能技术在更广泛领域的应用奠定了坚实的基础。
此次达摩院开源的三大组件,如同一套“乐高式工具包”,为具身智能开发者提供了极大的便利。通过标准化连接、拟人化控制与空间认知三大突破,这些组件打通了机器人从感知到执行的完整链路。未来,随着这些组件的不断迭代和完善,具身智能技术的开发门槛将进一步降低,加速其在工业、家庭等场景的规模化落地。届时,机器人将真正具备“看懂世界,动得像人类”的能力,为人类社会的智能化发展注入新的动力。