ITBear旗下自媒体矩阵:

复旦大学团队创新:让机器人学会“主动提问”,开启人机交互新篇章

   时间:2025-10-10 04:42:18 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

复旦大学计算机科学与人工智能学院的研究团队在机器人交互领域取得重大突破,开发出全球首个具备主动澄清能力的机器人系统。这项被命名为"Ask-to-Clarify"的创新框架,使机器人能够像人类一样通过对话消除指令歧义,相关研究成果已在国际知名预印本平台arXiv发表。

传统机器人系统在处理模糊指令时存在根本性缺陷。当用户发出"把水果拿给我"这类指令时,现有机器人要么随机选择,要么因无法决策而停止工作。研究团队通过深入分析发现,这种困境源于单向执行模式——机器人缺乏与人类的交互反馈机制,无法区分指令的明确程度,更无法主动寻求澄清。

新框架创造性地构建了双组件协作体系。其中"合作模块"基于先进视觉语言模型,负责理解场景、识别歧义并生成澄清问题;"行动模块"采用扩散模型技术,专门处理精确动作指令的生成。两个模块通过独特的"连接模块"实现无缝衔接,该模块能根据对话结果动态调整视觉关注重点,确保动作生成获得最相关的信息。

系统工作流程模拟人类处理歧义的自然方式。当接收到模糊指令时,合作模块首先分析场景,识别出指令中的不确定性,然后生成针对性问题。例如面对"把水果放到盘子上"的指令,系统会依次询问:"是苹果吗?""是橙子吗?"直到获得明确答复。确认指令后,行动模块立即生成精确的机械臂动作序列,完成端到端的任务执行。

训练过程采用创新的"两阶段知识隔离"策略。第一阶段专注训练对话能力,系统通过海量歧义解决对话数据,掌握识别歧义、提出问题及推导正确指令的技能。第二阶段冻结对话模块,专门训练动作生成能力,确保系统在保持沟通技能的同时获得精确执行能力。这种分阶段训练有效避免了多任务学习的相互干扰。

研究团队设计了包含8项真实场景任务的测试体系,涵盖放置、倾倒、堆叠等家庭常见操作。测试结果显示,新系统在所有任务中的表现均显著优于现有最先进系统。在放置任务中成功率达95%,倾倒任务达98.3%,堆叠任务达90%。特别值得注意的是,这些测试均采用模糊指令,而对比系统则直接获得明确指令,这种"不公平"对比更凸显了新框架的优势。

系统的环境适应性通过多项压力测试得到验证。在光线不足条件下,传统系统成功率从57.5%骤降至22.5%,而新框架仅从90%降至80%。面对视觉干扰物时,新框架保持80%的成功率,远超传统系统的65%。这种鲁棒性源于知识隔离训练策略,使系统保留了通用的视觉理解能力。

技术实现的关键在于智能信号检测系统。该系统通过分析合作模块输出的信号标记,自动判断何时需要澄清、何时可以执行。当检测到"指令模糊"信号时,系统进入对话模式;获得"指令明确"信号后,立即提取准确指令并转移控制权。这种无需额外训练的判断机制,确保了系统在不同模式间的无缝切换。

研究团队深入分析了传统系统失败的原因。采用层次化架构的基准系统虽使用扩散模型,但因缺乏有效连接机制,导致不同指令产生的条件信号高度相似。例如面对"放苹果""放桃子""放橙子"等指令时,生成的条件几乎完全相同,自然无法正确执行。而新框架通过连接模块的调节,能为每个任务生成独特条件信号。

在"存在"与"缺失"场景测试中,系统展现出智能判断能力。当目标物体在视野内时,系统通过对话确认后执行任务;当目标缺失时,系统会礼貌拒绝执行。这种判断基于完整的对话历史记录,确保了交互的连贯性和逻辑性,避免了重复询问或前后矛盾的问题。

这项突破为机器人技术发展开辟了新方向。它不再追求单纯的任务执行精度,而是致力于构建更自然的人机协作关系。通过引入双向交互机制,机器人从被动执行者转变为能够主动沟通的合作伙伴。这种转变不仅提高了任务完成率,更重要的是改变了人们对机器人能力的认知。

研究团队指出,当前系统在连接模块方面仍有改进空间。目前采用的特征调制方法相对简单,未来可探索更复杂的注意力机制或对比学习方法。这种开放的研究态度为后续技术发展预留了充足空间,也为机器人技术的评价标准提供了新维度——除了任务完成率,交互质量和澄清效率等指标同样重要。

在实际应用层面,这项技术为家庭服务机器人的实用化扫清了关键障碍。具备澄清对话能力的机器人将更贴近人类交流习惯,用户无需刻意使用精确语言,只需自然表达需求即可。这种改变将显著提升用户体验,推动机器人技术在智能家居、医疗辅助、教育陪伴等领域的广泛应用。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version