近日,在2025世界机器人大会(WRC)主论坛上,北京星动纪元科技有限公司创始人陈建宇发表了题为《构建通用人形机器人》的演讲,分享了星动纪元打造通用人形机器人的思路——将通用大脑与通用本体相结合,同时强调向人类学习是实现通用人形机器人的最短路径,并以此阐述发展通用人形机器人的原因与构建路径,全面展示了星动纪元在该领域的成果与愿景。
以下为陈建宇演讲内容实录:

通用机器人是AI下一站
将革新社会生产力与服务
“我们最近发布了两款全尺寸的人形机器人 —— 一款双足,一款轮式。人形机器人不仅能完成高爆发的360°旋转跳、跳街舞这样的运动控制类动作,还能胜任物流分拣、叠衣服、搬运、扫码识别、打螺丝等各种各样通用的操作任务。”
“我们认为通用机器人一定是AI下一步的趋势,可以看到AI已经逐步渗透至电脑、手机等各类终端,现在正在从思考走向行动,智能汽车就是其中一个例子,接下来机器人由于有更强大、更通用的移动和操作能力,未来必将带来整个社会生产力和服务力的革新。”

传统软硬件模式难成通用
易陷商业牢笼

“为什么做这样一个通用的人形机器人,我们认为如果还是依靠传统的机器软硬件方案,难以实现真正的通用性。尽管目前机器人种类已经比较繁多,但是实际上相比于刚刚展示的几大终端产品来说,它的数量还是非常少的,这是因为每一个场景都要建立一套独立系统,我们认为这样的硬件堆砌无法催生最终的智能进化,这种专业的系统最终会带来商业牢笼,使我们无法真正让机器人规模化,这也就是为什么机器人整个领域到目前为止虽然发展了半个多世纪,仍未出现真正意义上的巨头。”
通用人形机器人 = 通用大脑 + 通用本体
向人学习是通用机器人的最短路径
“如何构建通用机器人呢?我们认为最短的路径就是直接向人学习,因为人类是现实世界中唯一存在的通用具身智能体,我们的语言模型为什么成功,正是因为它借鉴了人类语言的学习过程,从海量人类文本中学习而来。”
“机器人涉及维度更广,因此需要构建人的通用大脑,不光要有语言功能,还要有能控制双手、双腿在物理世界中交互的功能,同时我们还要构建与它匹配的通用本体。”

通用大脑ERA-42:
端到端模型是机器人通用化的关键路径
“第一个部分先讲讲通用机器人的大脑,我们发布了一款ERA-42的通用大脑模型,这是一个端到端的具身模型,将视觉感知、行为理解、规划与执行融为一体。”
“为什么做这样一个端到端的模型呢?这来自于我们从语言模型中得到的启发,语言模型出来之后短短几个月的时间内,把以前NLP(自然语言处理)整个领域完全颠覆了。NLP里构建了很多不同的模型,去解决各种各样不同的任务,有非常多的算法,但是最终被Transformer这一简洁架构颠覆了,并在各个方面都展现出了更强大的性能。所以我们认为机器人应该沿着这样一条路才能带来最终想要的通用模型。”
“但这样一个模型还面临以同一模型控制通用人形本体的挑战,我们已在此方面努力攻关并且取得了一些成果,我们目前已经能够实现用同一个模型控制高自由度机器人本体并能在相对较少的训练数据下达到很好的性能。”
具身模型研究范式需持续突破
才能不断打破瓶颈
“这背后是我们一直在努力突破具身模型的研究范式,我们认为实际上目前最大的瓶颈还是在于具身最终模型的范式上,需要不断的突破迭代模型范式才能打破瓶颈。我们把具身模型发展的过程分为四个阶段,也是我们星动纪元探索的四个阶段。”

“第一阶段,我们探索如何将具备人类认知能力的语言模型和视觉语言模型引入具身智能中,但在这个阶段,它与我们的行为动作仍然不是相匹配的模型,仍然是分成了两个单独的模型,这大概是在2023年的时候ChatGPT刚出来之后大家所做的事情。”
“第二阶段,现在主流的模型是类似于以π0还有Helix等为代表的快慢系统的模型。我们称之为‘实时行动且深度思考’—— 将语言模型的深度思考能力与行为动作的实时执行能力结合,形成端到端模型,虽然是一个快慢系统,但是端到端训练的,我们很早就进行了探索,早在去年年中就发表了相关论文。”
“第三阶段,以Sora为代表的生成式的模型,为什么做这个事情?机器人是跟物理世界有具体的交互,但是语言模型仍然停留在抽象的空间理解。而像Sora这类生成式模型实际上是能够捕捉非常精细的物理交互的变化范式。”
“还有非常重要的是它能从广泛无标注的互联网视频数据中来学到物理世界的规律和知识,即我们所称的世界模型,这种方式间接解决了数据稀缺瓶颈的问题,可以直接自监督的通过大量的互联网无标注视频数据来学习。”
“第四阶段,强化学习范式,这个代表是DeepSeek。它之所以广受关注,就是因为它的R1模型是使用了强化学习。此前的VLA(视觉-语言-动作模型)具身模型基本上还是属于从人类的示范里进行完全的模仿来学习。但这样的话会有两个问题,一个是没法超越示范本身的能力。第二个是对于物理世界具体的示范表现欠佳。我们也做了相应的探索,用强化学习来训练基于模仿学习的VLA模型,最终提升了它的成功率和效果。”
ERA-42预训练如“开卷考”
让机器人“看会”任务执行

“前面一个阶段是预训练阶段,我们称之为‘开卷考’,也就是‘看会’——类似于小孩,前面几年其实也不会做什么具体的事情,但一直在观察这个世界,这与我们的预训练过程类似,该阶段不仅融合了各类机器人数据,还纳入了海量无标注的互联网视频数据,是一个融合世界模型的预训练模型,该模型能达到零样本生成执行策略,而且这个策略可以以高清视频的方式呈现出来,能够预想并演示全新场景与任务。”
ERA-42真机微调如“真实践”
让机器人“学好”任务执行
“在此基础上,可认为模型已具备对世界的通用常识。接下来就是具体的进行实践和优化,需要模型依托机器人专属本体,在真实的物理世界里收集真实的数据,进而对其进行微调。”
“由于有前面这一部分开卷看会的部分,所以我们在第二个阶段只需要非常少量的真机数据微调就能大幅提升任务的准确度。在这样的范式之下,也能够有效地解决我们的数据瓶颈问题。”
ERA-42打破数据瓶颈
让机器人“有得学”

“这是我绘制的机器人数据金字塔示意图,最顶层为真机数据,它是质量最高的,但我们知道它的量是非常少的。左上角对比了一下GPT 4和Sora所基于的文本或者是视频数据量,相比之下,机器人真机的数据量是相当少的,仅靠这个数据量,其实是很难让我们达到已有的泛化能力。”
“所以说我们进一步引入了金字塔下面两层,一个是人类行为的数据,现在的VR和智能眼镜做到了大范围的发展和逐步的普及,借此能够高效采集人类第一人称行为数据,其成本远低于真机数据采集。底层的是更庞大的互联网数据,涵盖人类行为(包括第一人称、第三人称及多人互动)、自然现象、动物活动等数据。也就是发生在地球上的一切,通过世界模型都能够从中学习。通过这种数据架构,随着模型迭代,我们所需的真机数据量已大幅降低。”
“同时,我们还通过不断提升模型对本体的控制难度,开展跨任务和跨本体学习。我们自去年开始在单个机械臂上开展实验,然后逐步升维到7轴机械臂加五指灵巧手,让我们的模型直接端到端的控制每个手指的动作,随后进一步迁移到双臂人形机器人上,进一步到更完整的形态。”

通用本体
人形是终局通用形态
“第二个部分是关于通用本体模块,关键词是“通用化”、“模块化”和全尺寸人形”。为什么做这样一个人形机器人?因为我们人类环境是由人类构建的并且为人类构建的,我们相信终局最通用的形态是人形,但打造人形机器人不仅是目的,也是手段——通过做人形机器人,我们能够以更低的成本收集到更多的数据,并且刚刚所说的不管是第一人称的人类行为数据还是互联网数据,都能够更好地迁移到我们的人形机器人本体上。”

硬件通用模块化
才能使机器人适应不同场景
“为了使机器人硬件更好地适配各类场景,我们采取了硬件通用化和模块化的方式,可以看到我们的模块化是多层的。最顶层是整机本体层,我们有面向工业的星动L7还有面向服务业的星动Q5机器人,且它们下层都基于同一套关节模组和灵巧手。灵巧手也是由小型关节模组构成,这些关节模组下层包含电机、减速器、驱动器等核心部件,所有这些部件均由我们自主研发。因此,我们自研软硬件,使硬件能够更好地适配软件,软件和硬件能协同发展,这也是软件定义硬件的实践。”

“模型 - 本体 - 场景数据”
构建物理世界AI进化飞轮

“总结来说,通用大脑+通用本体,它们的融合使得我们能够找到这样一个构建通用人形机器人的范式,再通过场景和数据形成物理世界AI进化飞轮。即是在顶层构建统一模型,该模型可通用赋能各类人形机器人本体(包括灵巧手),而不同本体适配不同场景,场景应用又会反馈数据形成不断迭代进化的闭环飞轮。”

“目前我们通过物理AI进化飞轮取得了不错的效果,我们也被英伟达评选为全球14强人形机器人之一,同时入选2025摩根士丹利人形机器人产业报告人形机器人全球16强。截至今年7月,我们产品的交付量已经突破了300台,获得了全球头部科技巨头的青睐,全球市值前十的科技巨头中,九家已成为我们的客户。”