在近期举办的世界机器人大会上,阿里巴巴达摩院宣布了一项重大举措:开源三大核心组件,旨在推动具身智能的全面发展。这些组件包括VLA(视觉-语言-动作)模型RynnVLA-001-7B、世界理解模型RynnEC,以及创新的机器人上下文协议RynnRCP。
达摩院首次提出的RCP(Robotics Context Protocol)协议,被视为具身智能领域的一次革新。这一协议不仅是一套完整的机器人服务框架,更像是一个“超级适配器”,能够无缝连接传感器数据采集、模型推理以及机器人的动作执行。目前,RynnRCP已经成功适配了多款热门模型和机械臂,如Pi0、GR00T N1.5等。
RynnRCP框架主要由两大模块构成:RCP框架和RobotMotion。RCP框架负责抽象机器人及其传感器的功能,并通过标准协议进行交互;而RobotMotion则作为云端与机器人本体之间的桥梁,将低频的推理命令转换为高频的连续控制信号,确保机器人能够准确执行动作。它还包含了一套运动规划与控制的工具包,为具身智能融入物理世界提供了有力支持。
RynnVLA-001-7B是达摩院自研的视觉-语言-动作模型,具备从第一人称视角视频中学习人类操作技能的能力,并能将这些技能隐式迁移到机器人手臂的操控上。在一个演示中,当指令要求机械臂将草莓放到手掌上时,它能够准确识别出草莓,并成功完成放置动作,展现了出色的理解和执行能力。
在对比测试中,RynnVLA-001-7B在多项捡拾物品放置测评中均取得了最高分,证明了其卓越的性能。达摩院还提供了详细的指南,指导开发者如何使用自己的数据对模型进行微调,以便更好地适应特定应用场景。
另一款开源组件是世界理解模型RynnEC,它将多模态大语言模型引入了具身世界,使机器人能够理解物理世界。RynnEC能够从多个维度全面解析场景中的物体,并在复杂环境中精准定位和分割目标物体。此次开源的RynnEC-2B模型在对象认知和空间认知测试中均超越了多个顶尖模型,展现了强大的认知能力。
为了评估模型的性能,达摩院还推出了RynnEC-Bench基准测试,涵盖对象认知和空间认知两大领域,共22项认知能力评估。这一基准测试为开发者提供了全面、客观的评估标准,有助于推动具身智能技术的不断进步。
达摩院的这次开源行动,为具身智能开发者提供了一套“乐高式”的工具包。通过标准化连接、拟人化控制与空间认知三大突破,这些组件打通了机器人从感知到执行的完整链路。这不仅有望降低开发门槛,还将加速具身智能在工业、家庭等场景的规模化落地,让机器人更加智能、灵活,更好地服务于人类社会。