在智能科技领域,具身智能正引发一场关于其本质定位的深度探讨。自变量机器人创始人兼CEO王潜近日公开表示,具身智能模型是物理世界的基础模型,与语言模型、多模态模型等虚拟世界模型处于独立且平行的关系。这一观点的提出,源于对物理世界与虚拟世界本质差异的重新审视。
语言模型和多模态模型所处理的是高度可复现、低随机性的符号世界,而机器人所处的物理世界则充满连续性、随机性、不完全可观测性,以及大量与力、接触和时序强相关的过程。王潜指出,沿用基于语言和视觉的建模范式,在物理世界中存在结构性错位。因此,自变量机器人在实践中选择了一条长期路线,不将具身智能视为应用层问题,而是从模型架构、数据范式、推理方式乃至硬件形态上,系统性地构建“物理世界的智能底座”。
在具身智能领域,一个核心争论在于其究竟应被定位为应用还是独立基础模型。王潜明确认为,具身智能模型是专门面向物理世界的基础模型。物理世界的特性与虚拟世界差异巨大,尤其是高度随机性的现象难以被现有模型架构、训练方法和数据能力充分准确刻画。从长期视角看,具身智能基础模型甚至可能反超现有多模态模型的市场空间。
构建统一的基础模型需具备完全端到端的能力,这一观点在行业内已逐渐形成共识。然而,在模型架构的具体设计上仍存在分歧。例如,快慢系统的采用被视为当前模型架构下的权衡方案。王潜认为,要根本解决问题,需将具身智能模型视为与现有模型完全不同的类型,在设计之初就充分考虑端侧部署和推理需求。自变量机器人已在此方面取得突破,其模型在复杂任务上的推理速度不仅超过人类训练时的数据收集速度,还能保持高准确率和效果。
机器人本体的泛化能力是另一关键挑战。王潜指出,这一问题部分源于沿用传统模型架构。自变量机器人通过跨本体泛化任务验证了其模型的先进性:从夹爪模型迁移至高自由度灵巧手(15个主动自由度,共20个自由度)时,仅需少量样本即可实现高效运行。这表明模型已掌握基础物理规律、物体属性和动作模式。该模型可能是当时唯一用端到端VLA模型驱动高自由度灵巧手的案例。
自变量机器人还期望具身模型具备多重能力:不仅生成动作控制机器人,还能作为世界模型预测未来状态,同时具备空间智能以利用三维结构,并延续VLA的语言能力。王潜强调,VLA与世界模型并非替代关系,而是同一模型的不同输出。将具身智能模型独立分离为新范式,正是为了整合这些能力。自变量自研的WALL-OSS开源模型已具备VLA控制能力、泛化与智能跟随能力,并能区分子任务构建长序列思维链。
在数据策略上,王潜提出具身智能需分阶段处理数据:预训练数据奠定基础,后训练数据优化性能,推理时通过思维链(CoT)等方式进一步拓展。这一策略源于对现实世界数据重要性的认识——尽管虚拟数据和合成数据有一定价值,但真实世界数据仍是核心。具身智能的持续学习特性要求端侧实时更新数据,而非依赖集中式批次训练,这对系统架构和硬件设计提出了新要求。
硬件与模型的协同发展是具身智能落地的关键。王潜强调,需让AI定义硬件,而非先制造完美硬件再叠加AI模型。自变量机器人已推出两款全自研轮式底盘人形机器人和高自由度灵巧手,并开始市场销售。其软硬一体同步发展的策略,为具身智能的实用化提供了新思路。
针对具身智能的发展影响,王潜认为其重要性常被低估。当前普遍观点认为语言、数学等领域比具身智能更关键,但这一假设隐含前提是AGI能独立突破资源限制。然而,真正聪明的AGI或超越人类的ASI需要更多算力、芯片、电力和数据,而这些均依赖物理世界。具身智能若实现突破,将推动万事万物遵循类似芯片摩尔定律的发展规律,从而释放更多资源用于构建更智能的系统。这一过程可能重塑人类与机器的关系,开启通用智能的新纪元。









