在具身智能领域,数据问题一直是制约其发展的关键因素。近年来,围绕真机数据与仿真数据的争论愈演愈烈,真机数据虽真实但成本高昂且效率低下,而仿真数据则面临Sim2Real的巨大鸿沟。两者似乎都无法有效推动技术突破,使得具身智能的发展陷入瓶颈。
面对这一困境,一些研究者开始探索世界模型这一新兴概念,希望借此为具身智能的发展开辟新路径。朱政,这位从中科院自动化研究所博士毕业并在清华大学从事博士后研究的计算机视觉专家,便是其中之一。他早期在人脸识别和自动驾驶领域取得了显著成就,如今正将目光投向具身智能。
朱政指出,具身智能与之前的领域不同,它要求模型能够频繁地与现实世界交互,解决实际操作中的问题。这意味着,除了视觉感知外,模型还需要具备强大的动作执行能力。因此,世界模型成为了他解决这一问题的关键切点。
作为极佳科技的联合创始人和首席科学家,朱政带领团队为多家车企提供了基于世界模型的仿真环境,用于测试和优化自动驾驶算法。他们的学术成果DriveDreamer也入选了ECCV 2024最具影响力论文榜单。去年开始,他们进一步将世界模型应用于具身智能领域,发布了VLA——GigaBrain,据称在应对Zero-Shot任务时成功率提升了50个百分点。
对于世界模型的定义,朱政认为其本质在于对未来的预测能力。无论是视频生成还是为agent提供仿真训练环境,世界模型的核心都是能够根据给定的action序列预测环境的反馈。他进一步指出,世界模型的发展将经历三个阶段:生成训练数据、提供闭环仿真环境,并最终进化成VLA的下一代。
在自动驾驶领域,世界模型已经相对成熟,能够生成训练数据和闭环仿真环境。然而,由于自动驾驶强调长时序预测,世界模型在构建过程中仍面临诸多挑战,如视频生成的幻觉问题和重建模型的高成本。朱政表示,他们正在探索更高效的方法来构建3D世界模型,以加速这一过程。
相比之下,具身智能的世界模型对精细操作和物理合理性提出了更高要求。朱政认为,具身智能的场景更依赖于抓取、推拉等精细操作,因此世界模型需要具备更高的几何精度和物理合理性。他们正在通过融合3D世界模型和视频世界模型的方式,来完成移动导航+操作的任务。
对于数据问题,朱政认为世界模型的出现将极大地丰富数据金字塔的层次。虽然真机数据仍然是最真实的,但其采集周期长、成本高昂。相比之下,世界模型可以通过生成能力高效地生成大量物理真实的数据,从而显著降低数据成本。他们已经在实验中取得了显著成果,训练VLA时真机数据的比例仅为10%,其余90%均为世界模型生成的数据。
展望未来,朱政表示世界模型与VLA之间将形成一个相互供给的数据循环状态。随着世界模型的不断发展,其预测能力将逐渐增强,最终可能与VLA融为一体。他们希望通过这种方式,推动具身智能的发展,实现真正的通用智能。
在谈到市场竞争时,朱政表示,尽管许多初创公司、大厂和科研院所都在涉足具身智能领域,但各自的优势和落点不同。极佳科技将坚持“两条腿走路”的战略,既为行业提供世界模型平台,也直接面向终端客户落地解决方案。他们相信,通过不断努力和创新,能够在具身智能领域取得更大的突破。