灵初智能近期提出的解决方案引发关注。其研发的PSI框架包含策略模型Psi-R2与世界模型Psi-W0,通过整合近10万小时人类操作数据,构建了从人类技能到机器人执行的全链条训练体系。Psi-R2负责解析任务逻辑,学习“如何完成任务”;Psi-W0则通过预测不同动作的后果,补充“其他可能性会怎样”的推理能力。这一双模型架构突破了传统方法对数据对齐的依赖,转而采用“原始数据输入、原始数据输出”的直接映射策略,将人手关节运动通过运动学公式转换为机械臂可执行的指令,同时保留原始图像信息以减少人为干预误差。
人类数据与真机数据的融合是该方案的核心创新。灵初披露,其预训练数据集包含5417小时真机数据与95472小时人类数据,覆盖294种场景、4821类任务及1382种物体。相较于自动驾驶或语言模型领域可依赖的现成语料库,机器人训练数据需从现实操作中“逐帧采集”。人类数据的优势在于其天然包含任务目标、动作细节与时间节拍信息,例如手机装配中的微小部件操作,其动作精度与速度均经过长期实践优化,更贴近产业实际需求。实验表明,Psi-R2经预训练后,仅需不到100条真机轨迹微调,即可完成高精度任务如工业包装与纸盒折叠。
世界模型Psi-W0的引入解决了策略模型的局限性。传统方法仅能从成功轨迹中学习,而Psi-W0通过动作条件型视频预测机制,将动作作为生成条件,模拟不同动作下的场景变化。为增强模型对失败的认知,训练数据中特意混入约30%的失败样本,涵盖专项采集、常规操作与推理过程中的错误案例。这一设计使模型不仅能评估策略有效性,还可通过强化学习在虚拟环境中优化人类动作到机器人动作的转换。例如,在抓取任务中,Psi-W0可推演人类抓取动作在机器人动力学条件下的结果,若偏差过大则自动调整轨迹,直至符合执行标准。
数据质量而非数量成为训练效能的关键。灵初提出,高信噪比、精准3D位姿与任务多样性是衡量数据价值的核心指标。在感知模态优先级上,3D位姿精度远超2D图像与触觉信号,而触觉数据虽难在机器人端规模化部署,却可通过“掩码训练”方式间接利用——即屏蔽真机数据中的触觉通道,迫使模型预测接触信号,从而提升对交互过程的预判能力。人类操作节拍接近机械臂物理极限的特性,使其数据在训练中更具产业适配性。例如,遥操作节拍通常仅为机械臂上限的60%-70%,而人类在常规作业中的操作速度可逼近设备极限。
为推动行业生态发展,灵初同步开源了1000小时人类操作数据集。该数据集分为高精度与大规模扩展两类:前者经严格处理后轨迹与真机高度对齐,适用于精细任务训练;后者则通过可控精度扩大数据覆盖范围,强化模型泛化能力。这一结构设计与PSI框架形成闭环,既保障操作精度,又拓展预训练边界。在MolmoSpaces公开评测中,Psi-R2以显著优势登顶总榜,超越具身大模型标杆π与英伟达GEAR等主流方案,验证了其方法在真实世界任务中的有效性。
当前,具身智能训练框架的竞争已从单一模型性能转向系统化路径设计。灵初的方案通过整合人类数据、双模型架构与强化学习优化,构建了无需依赖大规模真机遥操作的数据驱动训练路径。这一路径不仅降低了数据采集成本,更通过模拟反事实推理与虚拟调优,缩短了模型从实验室到工厂的落地周期。随着1000小时开源数据集的释放,行业或将加速向“人类示范-虚拟优化-真机执行”的新训练范式转型。











