在计算机视觉与机器人技术领域,一项突破性成果引发全球关注。由智元机器人携手北京航空航天大学共同研发的ACoT-VLA(Action Chain-of-Thought)架构,凭借其创新性思维链范式,成功入选计算机视觉领域顶级学术会议CVPR 2026。该架构首次将推理过程从传统语义空间延伸至动作空间,有效解决了现有视觉语言动作(VLA)模型中普遍存在的"语义理解强、动作执行弱"的技术瓶颈。
研究团队通过构建动作层级的因果推理机制,使机器人能够像人类一样在执行任务前进行"动作预演"。与传统模型依赖文本指令驱动的方式不同,ACoT-VLA架构通过分解复杂操作序列,在动作维度建立逻辑链条,显著提升了机器人在非结构化环境中的操作精度与适应性。实验数据显示,该架构在AGIBOT自研的机器人操控基准测试中,任务完成率较现有模型提升37%,尤其在需要多步骤协同的精密操作场景中表现突出。
为推动技术普惠与产业应用,智元机器人已将ACoT-VLA架构作为AGIBOT WORLD CHALLENGE机器人挑战赛的官方基线模型全面开源。该模型支持多模态输入与开放词汇指令,开发者可基于其构建面向工业制造、物流仓储、家庭服务等场景的智能操控系统。目前,全球已有超过200个研究团队下载使用该模型,在机械臂抓取、双臂协作等任务中取得显著进展。
此次技术突破标志着机器人智能操控进入"动作理解"新阶段。通过将高阶认知能力注入底层动作控制,ACoT-VLA架构为解决复杂环境下的机器人决策问题提供了全新范式。随着开源社区的持续优化,该技术有望加速推动服务机器人从实验室走向真实应用场景,重塑人机协作的生产生活方式。










