在近期举行的世界机器人大会上,阿里巴巴达摩院宣布了一项重大开源举措,旨在推动具身智能技术的全面发展。此次开源的核心内容包括三个关键组件:视觉-语言-动作(VLA)模型RynnVLA-001-7B、世界理解模型RynnEC,以及创新的机器人上下文协议RynnRCP。
达摩院首次将模型上下文协议(MCP)的理念引入具身智能领域,并据此提出了全新的机器人上下文协议(RCP)。RynnRCP作为一套完整的机器人服务协议和框架,扮演着“超级适配器”的角色,能够无缝衔接从传感器数据采集、模型推理到机器人执行动作的整个流程。目前,该框架已支持多款热门模型及多种机械臂,为开发者提供了极大的便利。
RynnRCP框架主要由两大模块构成:RCP框架本身和RobotMotion。RCP框架负责抽象机器人及其传感器的能力,并通过标准协议与不同传输层及模型服务进行交互。而RobotMotion则作为云端推理与机器人控制之间的桥梁,将低频的离散推理指令实时转换为高频的连续控制信号,从而驱动机器人高效完成任务。它还配套了运动规划与控制所需的工具包,进一步促进了具身智能在现实世界中的应用。
RynnVLA-001-7B是达摩院自研的视觉-语言-动作模型,它通过视频生成和人体轨迹预训练,能够从第一人称视角的视频中学习人类的操作技能,并隐式地迁移到机器人手臂的操控上。在实际演示中,当指示机械臂将草莓放到手掌上时,机械臂能够准确识别草莓并执行相应动作,展示了其强大的理解和执行能力。
在对比测试中,RynnVLA-001在多项捡拾物品放置任务中均取得了最高分,证明了其卓越的性能。达摩院还提供了如何使用开发者自有数据对模型进行微调的指南,并计划发布从零开始训练模型的详细说明。
世界理解模型RynnEC则是达摩院为具身认知任务设计的视频多模态大型语言模型(MLLM)。它能够从位置、功能、数量等11个维度全面解析场景中的物体,并在复杂室内环境中精确定位和分割目标物体,建立连续的空间感知并支持灵活交互。RynnEC-2B模型在本次发布中亮相,并在多个对象认知测试中超越了现有顶尖模型。
RynnEC-Bench基准测试在两个关键领域对模型进行评估:对象认知和空间认知,涵盖了22项具体的认知能力测试。测试结果显示,RynnEC-2B在多个维度上均表现出色,特别是在空间认知测试中大幅领先其他模型。
达摩院此次开源的“三件套”为具身智能开发者提供了一套强大的“乐高式”工具包。通过标准化连接、拟人化控制与空间认知三大核心突破,这些工具包打通了机器人从感知到执行的完整链路。未来,这有望显著降低开发门槛,加速具身智能在工业、家庭等领域的规模化应用,让机器人更加智能、更加贴近人类的需求。