在机器人技术领域,规模化应用长期面临数据割裂、动作表示不统一以及空间理解能力不足等难题。不同厂商、不同形态的机器人数据体系独立,导致模型难以跨平台复用,训练效率受限且部署成本高昂。近日,阿里巴巴集团旗下高德推出的两款基座模型——具身操作基座模型ABot-M0与具身导航基座模型ABot-N0,为解决这些问题带来了新的突破。
ABot-M0作为通用的具身操作基础模型,从“数据统一—算法革新—空间感知”三个维度进行系统性重构,以提升模型在多样化机器人形态和任务场景下的泛化能力。在数据层面,它整合全球开源资源,构建了规模超600万条真实操作轨迹的通用机器人数据集。通过统一动作表示、坐标系与控制频率,并采用增量式动作建模,实现了跨平台数据融合,支持完全基于公开数据的预训练。
算法上,ABot-M0提出全球首个动作流形学习。由于机器人动作受物理规律、任务目标与环境约束,集中分布在低维结构化流形上,该模型设计了AML(Action Manifold Learning)算法,可直接预测结构合理、物理可行的动作序列,提升策略稳定性与解码效率。为增强空间感知,模型引入3D感知模块,强化对“前后、远近、遮挡”等空间语义的理解,能在复杂环境中做出更精准的操作决策。
在Libero、Libero-Plus、RoboCasa基准测试中,ABot-M0在包含复杂任务组合与动态场景扰动的设定下,平均任务成功率均达到SOTA。其中,在Libero-Plus基准上达到80.5%,较业界先进方案pi0提升近30%,在高扰动高难度具身操作任务中表现卓越。
导航是机器人进入物理开放世界的核心能力,但当前具身导航研究存在“碎片化”问题。主流方法针对特定任务构建孤立专用架构,限制了模型跨任务泛化能力,阻碍智能体提取统一物理先验,导致机器人常“环境看不懂、动作做不准”,复杂指令难以执行。
高德推出的具身导航基座模型ABot-N0以“全任务一统”为目标,全球首次在单一模型中完整集成Point-Goal(点位导航)、Object-Goal(目标导航)、Instruction-Following(指令跟随)、POI-Goal(兴趣点导航)与Person-Following(人物跟随)五大导航任务,突破了传统架构任务割裂的瓶颈。例如,当用户要求搭载ABot-N0的机器人“带我去奶茶店买一杯奶茶,再帮我占个座”时,系统会自动分解任务:先执行Point-Goal接近奶茶店区域,再切换至POI-Goal锁定店铺入口并靠近,接着触发Instruction-Following进入店铺导航至柜台,最后执行Object-Goal寻找空沙发停靠。
ABot-N0在架构设计、数据引擎和系统框架上均有关键革新。模型架构采用层次化的“大脑‑动作”设计哲学,“认知大脑”理解指令并推理,“动作专家”基于流匹配生成精确且多峰分布的连续轨迹。训练时,先进行认知训练热身,再用部分认知数据和海量导航动作联合监督微调,最后用强化学习将导航决策对齐到人类偏好的行为价值,打造出更通用的VLA基座模型。
数据方面,依托高德长期积累的场景资产和专家示例,构建了业内最大规模的具身导航数据引擎,涵盖约8000个高保真3D场景等海量时空数据与近1700万条专家示例,增强了模型在真实环境中的泛化能力与鲁棒性。基于这些创新,ABot-N0在CityWalker、SocNav、R2R-CE/RxR-CE、HM3D-OVON、BridgeNav、EVT-Bench七大权威基准测试中全面刷新世界纪录。其中在SocNav闭环仿真中,成功率(SR)飙升40.5%,在HM3D-OVON评测中成功率(SR)提升8.8%,均显著优于之前的SOTA模型。
为解决机器人在执行长程复杂任务时的任务拆解与容错问题,高德提出可落地的Agentic Navigation System具身导航系统框架,形成从“读懂指令”到“长程复杂任务执行”的闭环能力架构,支持机器人在执行过程中持续感知、记忆、决策与纠错。该系统已成功部署于真实四足机器人平台,并在边缘侧实现高效推理与闭环控制,验证了其在动态现实环境中的泛化性能与工业级稳定性。












