ITBear旗下自媒体矩阵:

双系统导航新突破:让AI机器人“边思考边走”更像人类

   时间:2026-01-05 02:11:42 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

上海AI实验室联合香港大学、浙江大学、清华大学等高校,共同研发出全球首个采用“快慢结合”架构的双系统视觉语言导航模型——DualVLN。该模型通过模仿人类“理性思考”与“直觉反应”的协同机制,将复杂导航任务分解为规划与执行两个独立子系统,在最新测试中展现出显著优势,为智能机器人导航领域开辟了新路径。

传统机器人导航系统常面临“思考与行动捆绑”的困境,如同要求棋手边制定战略边精准落子,导致反应迟缓且动作僵硬。研究团队针对这一痛点,创新设计出双系统架构:第一系统作为全局规划器,基于大型视觉语言模型,每秒2次分析语言指令与环境信息,在图像中标记目标点并提供语义背景;第二系统作为策略执行器,采用轻量化扩散变换器网络,以每秒30次的高频生成平滑路径,实时规避障碍。这种分工模式使机器人既能深度规划,又能灵活应对动态环境。

在标准VLN-CE基准测试中,DualVLN以64.3%的成功率超越前代方法约8个百分点,更在未专项训练的VLN-PE物理控制测试中取得51.6%的成绩。针对人群密集场景设计的Social-VLN测试显示,系统在保持37.2%成功率的同时,将人体碰撞率控制在35.4%。真实环境测试覆盖办公室、街道、便利店等多元场景,机器人成功处理楼梯、动态行人等复杂状况,且在轮式、四足、人形等不同平台均表现稳定。

实验数据揭示系统设计的精妙之处:分阶段训练使第一系统泛化能力提升40%,第二系统学习速度加快25%;隐含语义信息的引入将整体性能提升12%;第二系统对方向正确但位置偏差的目标点具有强容错性,但方向错误时性能下降30%。数据效率测试进一步验证架构优势——第二系统仅需1%训练数据即可达到竞争性表现,而第一系统通过多样化数据强化了语言理解与视觉推理能力。

该模型的技术突破为智能导航提供了新范式。通过解耦复杂任务,系统不仅提升了性能与效率,还增强了可解释性:规划器的像素级目标与执行器的轨迹生成过程均可追溯。这种设计在服务机器人领域潜力巨大,例如家庭场景中,用户可用自然语言指令机器人完成“去厨房拿水杯”等任务,系统自动规划路径并避开障碍;医疗场景中,导诊机器人可精准引导患者至指定科室。

尽管系统在光线不足或未知障碍类型等场景仍需优化,但其已展现出强大适应性。研究团队正探索多模态感知融合技术,以提升低光照环境下的推理能力,并构建更丰富的障碍物数据库增强泛化性。随着技术迭代,这类“思考-行动”分离架构有望推动自动驾驶、物流配送等领域实现更智能的动态决策,重新定义人机交互方式。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version