在2025世界机器人大会的主舞台上,宇树科技创始人王兴兴成为了媒体聚焦的焦点。面对众多关注,他频繁被问及一个问题:为何人形机器人尚未实现大规模应用,其功能又为何尚待完善?
王兴兴坦诚回应,尽管人形机器人在硬件层面仍有提升空间,但从技术和人工智能(AI)的角度来看,当前的硬件水平已“足够支撑”。他强调,人形机器人规模化应用的最大瓶颈在于AI技术尚未成熟。他比喻道,目前的智能体AI应用就像ChatGPT问世前夕,业界已经预见到了潜在的发展方向和技术路径,但尚未有人成功将其实现。
王兴兴进一步描绘了他所期待的人形机器人“Chat GPT时刻”:在一个陌生的会场,机器人能听懂指令,自主行动,准确找到观众并递上一瓶水。他相信,这样的场景在不久的将来就能实现,乐观估计1至3年,保守估计也不过3至5年。
对于当前智能机器人尚未达到理想效果的原因,王兴兴提出了与业界普遍观点不同的看法。他认为,业界过于关注数据问题,而忽视了模型架构的挑战。他指出,当前的具身智能和机器人模型架构既不够好,也不够统一,尤其是主流的视觉-语言-动作(VLA)模型,在他看来“过于简单粗糙”,对真实世界的交互数据质量要求较高。
王兴兴提出了一个可能的解决方案:在VLA模型上结合强化学习算法(RL)进行训练。然而,根据宇树科技的经验,这种方法仍然“不够用”,模型架构需要进一步的升级和优化。他同时提到了OpenAI和谷歌在视频生成模型上的新尝试,认为这可能是一个比VLA模型更有潜力的方向,但也面临着GPU消耗过大的问题。
王兴兴还提到了机器人在动作技能上的进展,如跳舞和格斗等,但整体能力的提升仍面临挑战。他特别指出了机器人领域强化训练的缩放定律(Scaling Law)的不足。例如,训练机器人跳一段舞蹈时,每增加一个新动作都需要从头开始,而理想状态下应该能够基于之前的训练结果快速学习新动作。这一定律在语言模型上已得到验证,但在机器人运动控制方面仍处于探索阶段。
在谈到AI领域的创新时,王兴兴表示,没有哪家大公司能保证只要有足够的人和资源就能永远领先。他认为,OpenAI和DeepSeek等公司的发展已经证明,AI领域的创新总是伴随着随机性,需要全球范围内的共创和贡献。
王兴兴还透露了宇树科技的上市计划。他表示,公司正在推进IPO辅导工作,上市是企业迈向更成熟管理和运营的一个阶段性事件。同时,他也提到了人形机器人R1的价格下降,预测未来几年全行业人形机器人的出货量将保持每年翻番的增长趋势,若有技术突破,2到3年内年出货量可能达到几十万甚至上百万台。