具身智能领域正面临一场数据获取方式的深刻变革。传统依赖真机遥操作采集训练数据的模式,因成本高昂和效率低下逐渐暴露出局限性。每小时数百元的采集成本,加上专业动捕环境的搭建需求,使得大规模数据获取成为奢侈。更关键的是,人工遥控的节奏难以匹配真实生产环境的需求,这种数据供给方式已难以支撑模型训练与产业落地的双重压力。
行业开始将目光转向人类操作数据这一天然资源。人类在真实作业场景中积累的海量高精度操作,为机器人训练提供了新的可能性。但这条路径同样充满挑战:人手与机械手的结构差异导致动作无法直接迁移,仅依赖第一视角视频还原动作又存在精度不足的问题。灵初智能提出的PSI框架,通过策略模型与世界模型的协同工作,为解决这些难题提供了新思路。
该框架的核心在于两个大模型的配合。策略模型Psi-R2负责学习任务执行方式,其训练数据包含5417小时真机操作数据和95472小时人类操作数据,覆盖294种场景和4821种任务。世界模型Psi-W0则通过动作条件型视频预测,补全策略模型缺乏的反事实推理能力。这种设计使模型不仅能理解"如何完成任务",还能预测"改变动作会产生什么后果"。
数据转换机制是该框架的另一创新点。研究人员摒弃了复杂的数据对齐方法,转而采用运动学公式直接转换人手关节数据,同时保持图像原始信息。这种"原始数据输入,原始数据输出"的朴素路线,在数据规模扩大后反而展现出优势。实验显示,经过预训练的Psi-R2模型,仅需不到100条真机轨迹微调,就能完成手机装配等高精度任务。
世界模型Psi-W0的引入解决了训练中的关键瓶颈。通过加入约30%的失败样本训练,该模型能够评估策略模型的执行效果,并通过强化学习调整人类动作轨迹,使其更符合机器人执行条件。这种"梦中试错"机制不仅提升了数据利用率,还形成了数据飞轮效应——优化后的轨迹可反馈至训练系统,持续改进模型性能。
在MolmoSpaces公开评测榜单中,Psi-R2模型的总分位列第一,超越了具身大模型标杆π和英伟达GEAR等主流方案。这一成绩验证了该框架在真实世界任务中的有效性。该基准测试因其与实际生产环境的强相关性,成为衡量具身智能模型的重要标准。
数据质量而非数量,成为决定训练效果的关键因素。灵初智能提出,高信噪比数据应具备任务多样性优先、精准3D位姿为核心的特征。其自研的数据采集方案通过端到端手部检测模型结合外骨骼手套,将操作轨迹误差控制在亚毫米级。这种精度对于手机装配等精密任务至关重要,误差的微小增加都可能导致操作失败。
触觉信息的引入为模型提供了新的感知维度。尽管机器人触觉传感器部署困难,但人类触觉数据采集成本低且稳定。研究人员采用掩码训练方式,让模型在缺失触觉输入时预测接触信号,显著提升了模型对物体交互过程的预判能力。这种跨本体感知信号的处理方式,为解决人机动作迁移难题提供了新思路。
真实作业节拍成为衡量数据价值的另一重要指标。人类在长期实践中形成的标准操作流程,其动作效率往往接近机械臂的物理极限。相比之下,遥操作的数据节拍通常只能达到理论值的60%-70%。这种效率差距在规模化生产中会被成倍放大,使得人类操作数据在产业落地中具有独特优势。
开源数据集的发布推动了行业生态建设。灵初智能此次开放的1000小时数据包含两类:高精度数据确保轨迹回放性,大规模数据拓展模型泛化能力。这种结构设计使研究者既能进行精细操作训练,又能开展预训练研究,形成了完整的训练闭环。该数据集的发布,为具身智能领域提供了新的研究基准和开发工具。









