卡内基梅隆大学联合德克萨斯大学阿灵顿分校与博世人工智能中心完成了一项突破性研究,旨在攻克人形机器人操作物体的核心难题。传统机器人依赖视觉与本体感觉完成动作,但面对叠毛巾、端茶行走等任务时,常因缺乏“手感”而失败。研究团队提出“触觉梦境”技术,通过预测未来触感提升操作精度,相关成果以预印本形式发布于学术平台,论文编号为arXiv:2604.13015。
人形机器人操作复杂性的根源在于多任务协同需求。例如,叠毛巾需手指感知力度、身体维持平衡、视觉判断位置,三者需同步进行。现有系统多依赖摄像头与运动传感器,却无法捕捉接触力变化——如插入精密零件时,毫秒级的力波动可能导致任务失败;软质材料形变更难以通过视觉预判。研究指出,当前极少有系统能同时整合全身控制、灵巧手操作与触觉传感,这一空白正是团队攻关的重点。
为解决上述问题,研究构建了四阶段学习流水线。首先训练下半身控制器,确保机器人行走、弯腰时保持稳定。该控制器通过“教师-学生”强化学习框架训练:教师策略利用模拟器特权信息(如脚部接触状态)生成动作,学生策略仅使用真实传感器数据模仿教师行为。测试显示,控制器可控制躯干高度在33至80厘米间调整,俯仰角度范围超两弧度,为上半身操作提供坚实基础。
数据采集环节采用VR遥控技术。操作员佩戴设备,其头部、手腕、手指动作实时映射至机器人,同时系统记录多摄像头图像、关节状态、手指受力及分布式触觉数据。每只手配备17个触觉区域传感器,覆盖五指各节段与手掌,提供1062维压力数据,形成精密“压力地图”。例如,抓握杯子时,传感器可区分拇指与食指的受力差异,为精细操作提供依据。
核心算法“人形触觉梦境变换器”(HTD)通过感官融合与预测机制实现突破。模型同时接收视觉、关节状态、受力与触觉信号,编码为统一内部表达后,解码生成动作序列。其创新在于要求模型预测未来触觉状态——如推积木时,提前“感受”手指将承受的力。预测在压缩潜在空间进行,避免原始触觉数据的高维噪声干扰。实验表明,该方法使任务成功率较基线提升约30个百分点,尤其在猫砂铲任务中表现突出,蹲下与工具使用的组合动作成功率显著提高。
五项真实任务验证了系统有效性。T形积木插入任务要求3.5毫米间隙内精确对齐,HTD通过触觉反馈实时调整姿态;叠毛巾任务中,系统处理初始折叠状态差异,完成多步骤操作;端茶任务测试双手持物行走稳定性,HTD因独立解码行走速度模块,表现优于基线方法。消融实验进一步证明,潜在空间预测触觉的效果优于原始传感器空间,成功率相对提升约30%。
触觉潜在空间的可视化分析揭示了其物理意义。无接触时,不同手指的激活模式相似;强接触时,激活模式呈现独特高强度响应,表明模型捕捉到接触结构而非简单压缩信号。例如,端茶任务中,预测力轨迹与真实记录在接触时机与力度上高度一致,验证了预测准确性。
该研究为通用人形机器人开发提供了新路径。通过整合全身控制、灵巧操作与触觉预测,系统在真实场景中展现出高鲁棒性。论文指出,触觉必须成为核心感知模态,而“预测未来触感”的学习方式显著优于被动输入信号。完整技术细节可查阅论文arXiv:2604.13015,为相关领域研究者提供重要参考。











