ITBear旗下自媒体矩阵:

李飞飞等顶尖学者突破困境:为具身智能触觉应用开辟全新路径

   时间:2026-07-05 12:03:03 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在机器人技术领域,一场关于感知模态融合的深度探索正引发广泛关注。一支由多国顶尖学者组成的科研团队,在具身智能研究中意外发现了一个颠覆认知的现象:当为经典模型引入触觉信号后,机器人的任务执行效率不升反降,成功率从17%骤降至6%。这一反直觉结果,迫使学界重新审视多模态感知的融合策略。

传统研究范式认为,将视觉、语言、触觉等多元感知信息统一编码后输入大模型,能够通过数据量的累积实现智能涌现。但实验数据显示,这种"大锅烩"式的融合方式在涉及精细操作的场景中表现惨淡。研究人员通过频谱分析发现,视觉信号以每秒5帧的速率更新,属于典型的"慢感知"模态;而触觉反馈包含压力、形变等动态信息,需要每秒20次以上的采样频率才能有效捕捉。当两种时间尺度差异巨大的信号在低频Transformer中竞争算力时,触觉的高频优势被严重抑制,反而干扰了视觉表征的稳定性。

针对这种结构性矛盾,研究团队提出混合专家架构(Mixture-of-Transformers),为不同感知模态构建独立处理通道。该架构包含三位分工明确的"专家":潜在专家负责整合视觉与语言信息,预测场景演变趋势;动作专家以每秒5次的节奏生成基础运动轨迹;触觉专家则在接触瞬间启动,以毫秒级精度修正操作力度。这种异步协作机制确保各模态在专属时间尺度下运行,避免频率错配导致的性能损耗。

为使触觉信号处理更具鲁棒性,团队开发了时空触觉编码器。该模块通过VQ-VAE技术将连续力数据压缩为离散"触觉词汇",既能保留动态变化特征,又能抵抗传感器噪声干扰。在数据构建方面,研究团队突破传统任务导向的采集方式,创建了包含200余种日常物品、22种基础动作的同步数据集。通过排列组合生成7700余条运动轨迹,使模型能够学习通用的触觉-动作映射关系,而非记忆特定任务模板。

训练策略采用分层递进模式:首先利用2.2万小时人类操作视频进行预训练,建立基础的手部交互认知;随后通过100小时机器人触觉数据实现跨模态对齐;最终仅需少量任务示范即可完成功能微调。这种渐进式学习方式显著降低了触觉数据需求,使模型在保持视觉理解优势的同时,获得精准的触觉反馈能力。

在包含翻书页、转移生鸡蛋、分拣麻将等12项精细操作任务的测试中,新架构展现出卓越性能。相较于基线模型,平均任务成功率提升超过30%,特别是在需要力度精确控制的场景中,表现从"难以使用"提升至"具备实用价值"。消融实验进一步验证了设计合理性:移除触觉通道或强制同步运行,均会导致性能显著下降,证明异步处理机制是成功的关键因素。

这项研究对具身智能发展具有重要启示:不同感知模态具有本质差异,简单堆砌数据量并非最优解。视觉擅长全局场景理解,触觉则专注于即时物理交互,二者需要独立的处理通道与协作机制。这种设计理念与神经科学中的双流假说不谋而合——视觉系统通过腹侧通路识别物体,背侧通路指导动作,而混合专家架构在机器人身上实现了类似的功能分工。

当前研究仍存在局限性:复杂长程操作受限于示范数据覆盖度,全手掌触觉感知与传感器标定等问题有待突破。但这些技术挑战不影响其范式价值——该研究通过实证表明,触觉不应是视觉的附属品,而应作为独立感知通道与视觉形成互补。当机器人学会用"手"感知世界时,具身智能的发展或将迎来新的突破口。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version