在具身智能赛道,2026年的行业风向似乎正悄然转变。许多企业不再执着于单一技术路线或应用场景,而是在人形与轮式、物流与家庭之间反复调整方向。在这片充满不确定性的领域中,灵初智能凭借其独特的定位和坚定的技术路线,成为行业内少见的“笃定派”。
灵初智能自成立以来便备受关注。过去一年半时间里,公司累计融资超20亿元,国家队资本密集进入,估值一年内增长六七倍。今年5月,摩根士丹利发布的《Humanoid Horizons: Money Meets Machines》报告中,灵初智能被列为“中国-人形机器人价值链”图谱中“Brain(大脑)”板块的关键企业。这家公司的独特之处在于,从创立之初便锚定轮式底盘加双臂通用灵巧操作的方向,在行业内显得尤为稀缺。
灵初智能创始人兼CEO王启斌的履历颇为丰富。他从黑莓手机到Sonos音箱,再到云迹科技的室内配送机器人和京东的L4无人车,最终在2024年创立了灵初智能。王启斌表示,早在2018年选择机器人赛道时,他便希望找到一个面向未来十年的长赛道。尽管行业变化速度超出预期,但他始终认为,操作能力才是核心,移动能力只是基础。
在技术路线上,灵初智能的选择与行业主流趋势形成鲜明对比。2024年,当许多企业聚焦人形机器人时,灵初智能却选择了轮式加双臂的方案。王启斌解释道,移动能力与操作能力的综合考量下,主流解决方案形态应为轮式加双臂。他强调,任何移动机器人如果不能完成操作任务,便无法真正满足客户需求。这一判断源于他在云迹和京东的实践经验,即使机器人能够移动到指定位置,若无法用手完成最后一步操作,任务依然无法闭环。
数据是灵初智能技术突破的关键。去年,公司在世界人工智能大会上展示了打麻将、商超打包等长程任务,成功率颇高。今年4月,灵初智能发布了Psi-R2和Psi-W0模型,技术路线从VLA转向世界模型。王启斌介绍,Psi-R2是策略模型,学习任务执行方式;Psi-W0是动作条件型世界模型,推演不同做法的结果。训练中加入了约30%的失败样本,使模型不仅学习成功轨迹,也理解失败原因。
在数据采集方面,灵初智能坚持自研穿戴式多模态数据手套,捕捉视觉、触觉和关节角数据,实现亚毫米级3D轨迹精度。王启斌指出,纯视频数据存在遮挡和精度不足的问题,尤其在高频动态操作中难以达到要求。通过加入关节角和触觉数据,模型能力显著提升,例如叠纸盒子、处理手机盒铰链等任务的基础能力明显增强。尽管10万小时人类数据的采集成本较高,但通过自研手套和云端服务,灵初智能计划将成本降至真机遥操作方案的十分之一,并推出便携式众包版本进一步降低成本。
灵初智能的定位是通用灵巧操作的模型公司,但公司也涉足整机设计。王启斌将其称为“小全栈”模式,即不做移动和核心零部件,但负责整机设计和全栈软件。这一选择源于实践中的教训:购买的整机硬件底层软件不开放,控制方式对强化学习不友好,难以实现系统最优。他强调,具身模型与语言模型不同,必须直接操控物理世界,不同机器人的关节结构、传感器分布和质量惯性差异巨大,导致模型与硬件深度绑定。因此,他看衰短期内纯算法授权的模式,认为行业在两年内仍将处于全栈竞争阶段。
在应用场景选择上,灵初智能避开了家庭和纯工业场景,聚焦物流、零售和服务等中间态领域。王启斌认为,家庭场景泛化性要求高但节拍可慢,工业场景节拍快但泛化性弱,而中间态场景在泛化性和节拍上更为平衡。对于智驾背景企业切入具身赛道的现象,他提醒不要低估从“移动智能”到“操作智能”的鸿沟。具身智能面对的是完全不同的物理世界,操作任务的复杂度远高于智驾,数据逻辑也截然不同。
灵初智能的下一步计划是发布基于更大规模数据的模型,实现更长程、更泛化的任务操作。王启斌透露,公司今年目标是采集百万小时级人类数据,认为通用操作能力的涌现需要百万小时起步,亿小时级是终极目标。这一目标不仅是为了展示技术实力,更是为了满足产业真实需求,让普通人能够通过自然语言操控机器人完成复杂任务。









