滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

AI记忆新突破：蒙特利尔大学等团队让AI助手学会“精准开口与适时沉默”

时间：2026-05-27 17:06:08 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

当人工智能助手尝试完成复杂任务时，如何避免被过时的经验误导？蒙特利尔大学、麦吉尔大学等机构联合研发的Mem-π框架，通过让AI学会"选择性开口"的机制，在网页操作、企业软件管理等场景中实现了近50%的性能提升。这项突破性成果以预印本形式公开后，立即引发学术界对记忆系统设计范式的重新思考。

传统AI记忆系统如同图书馆管理员，面对新任务时直接调取最相似的历史经验。这种检索增强生成（RAG）模式虽能保证信息准确性，却常因情境差异导致"水土不服"。例如当用户询问"排名前三的搜索词"时，系统可能机械复用"前两名"的历史记录，造成关键数字错误。研究团队发现，这类错误在复杂任务中占比高达37%，成为制约AI实用性的重要瓶颈。

Mem-π框架的创新之处在于构建了两阶段记忆策略模型。首阶段通过"经验蒸馏"将海量操作轨迹转化为结构化知识，使模型掌握基础任务规律；第二阶段采用强化学习，在真实环境中训练模型判断建议价值的能力。特别设计的"弃权机制"让系统能自主决定是否提供帮助——当检测到任务难度较低或建议可能帮倒忙时，模型会主动保持沉默。

技术实现层面，研究团队突破性地将决策与内容生成解耦训练。针对"说与不说"的二元选择和"具体说什么"的内容生成，分别设计独立的优化路径。通过强制生成包含弃权选项的对比样本，配合门控奖励机制，确保模型在简单任务中减少干扰，在复杂任务中精准施策。实验数据显示，这种设计使建议词数减少31%的同时，任务成功率提升18.2个百分点。

在包含812个网页操作任务的WebArena测试中，Mem-π展现出显著优势。面对内容管理系统（CMS）任务时，其成功率从基础模型的14.6%跃升至42.8%；在Reddit论坛操作场景中，提升幅度达23.8个百分点。更关键的是，系统在简单任务中主动弃权率超过70%，而在高难度任务中保持90%以上的参与度，形成精准的智能干预模式。

跨模型迁移实验验证了该框架的普适性。使用较弱开源模型训练的记忆策略，在搭配更强大的闭源模型时，仍能带来16.0个百分点的性能提升。这种"记忆模块独立进化"的特性，为企业低成本升级AI系统提供了可行路径。研究显示，记忆策略模型仅需70亿参数即可达到最佳效果，远小于主流大模型的规模。

典型案例分析揭示了生成式记忆的双重性。在某数据库查询任务中，Mem-π正确识别"前三名"的需求并生成适配指令，而RAG系统因数字错配导致失败。但在涉及服务器刷新的任务中，所有方法均受限于底层工具性能，凸显出记忆系统改进的边界。研究团队特别指出，3.2%的案例中生成建议会出现逻辑合理但实际错误的指令，这为后续优化指明方向。

该成果已通过arXiv平台公开技术细节（编号2605.21463），包含四个测试场景的完整数据集和模型训练代码。研究团队正探索将记忆溯源机制引入系统，使AI既能灵活生成建议，又能解释决策依据。这种"知其然且知其所以然"的记忆模式，或将推动人机协作进入新阶段。

更多>同类资讯

软银加速机器人布局：量产启动，拟收购ABB业务，孙正义押注AI未来

他同时表示，软银将通过汇聚各垂直领域顶级机器人企业，成为“压倒性世界第一的机器人公司”，并提及2026年计划完成收购瑞士工业巨头ABB旗下机器人业务。针对“AI泡沫”的市场质疑，孙正义在此次股东大会上表示…

06-24

成都未来科技城六载耕耘：“星火”燎原航空航天产业“腾飞”正当时

从“薪火号”火箭剑指“一箭一轨”，到“维度Ⅰ型”无人机的“火眼金睛”；从低空飞行的eVTOL，到星际探索的商业飞船……成都未来科技城航空航天产业集群正在成形。顺着工作人员手指的方向，成都未来科技城的产业版图…

06-24

孙正义股东大会透露：软银某工厂已开启机器人量产，2026年或收购ABB机器人业务

IT之家 6 月 24 日消息，软银集团董事长孙正义今日在股东大会上透露，针对物理 AI应用场景，“已在某工厂开始机器人量产，即将正式发布，相信大家会感到惊讶”。他同时表示，软银将通过汇聚各垂直领域顶级机…

06-24

大模型浪潮下，四大行高管共话银行AI转型新路径与产业担当

工商银行行长刘珺讲到“算力阈值”、“机器人报价”、“技术期权”；农业银行董事长谷澍把话题拉回到模型黑箱、模型幻觉和智能体风险；中国银行行长张辉给出了一套“326”全球化AI赋能体系；建设银行行长张毅则从资本…

06-24

火山引擎发布豆包大模型2.1，日均调用量超180万亿，多领域应用潜力大

火山引擎总裁谭待介绍，在一项芯片设计RTL的测试中，豆包2.1 Pro连续运行近18小时，经历9轮迭代，还跑通了仿真、测试、综合检查等完整工程流程，展现出模型在真实工程场景里的生产级Coding交付能力；依…

06-24

企业接入大模型：数据边界管理比防范攻击更关键且更易被忽视

公开信息可以进入经过批准的 AI 工具；一般内部资料需要使用企业账号，并关闭模型训练用途；客户数据、核心代码和经营数据必须脱敏后使用；密钥、凭证、未披露交易等信息禁止进入通用模型。与其依赖禁止，不如提供一个…

06-24

千问大模型重磅推出Qwen-AgentWorld，原生语言世界模型实现七大领域交互模拟

6月24日消息，千问大模型今日正式发布首个原生语言世界模型Qwen-AgentWorld。据介绍，Qwen-AgentWorld能够在七大领域中模拟智能体交互环境。原生世界建模：环境建模从继续预训练（…

06-24

移动云模型服务平台：聚合多元模型与智能调度，引领智算服务新潮流

作为中国移动布局AI产业、推进智算服务普惠化的核心载体，移动云模型服务平台目前已构建出涵盖海量模型聚合、灵活调用能力、行业智能体服务、智能路由降本、全链路安全管控的全生命周期模型服务体系，能够打破AI大模型…

06-24

中国移动闪耀2026MWC上海展：以通信算力智能融合，开启数智新未来

此外，AI+量子保密通信展出了网络、平台、产品三层全栈能力，已在国防、政务、能源、金融等领域落地；5G-A赋能行业数智化展区呈现了全栈自研的专网体系与“中移百灵”无源物联网系统，实现毫秒级确定性传输和百米级…

06-24

68岁孙正义推迟退休：再干10-15年，全力押注AI

06-24

荣耀定义 Agentic OS：终端将从“应用容器”走向“智能体舞台”

06-24

亚信卫星互联网、Physical AI、Token产品亮相2026MWC上海

06-24

微信AI“小微”实测：功能亮眼却谨慎前行，15年前的预言照进现实？

06-24

新安股份对标国际加速终端化转型，国产替代与新兴赛道共筑成长新篇

06-24

马云旗下云锋新创入股峥研软件核心管理层变动注册资本提升

06-24

点击查看更多 +

全站最新

火山引擎谭待谈收入算力与出海：字节AI布局与未来走向全解析

马云率阿里高管下田插秧：是公关秀还是战略隐喻？3800亿投入待解

豆包上线付费专业版：从聊天到干活，价格亲民探索大模型商业化新路径

墨水屏护眼新体验，科大讯飞阅读器：让阅读更舒适更环保更智能

沈阳至广州汽车托运如何选？看资质运力服务口碑，百联运车成靠谱之选

7月1日起两项电车新国标实施，电池安全要求升级保障出行

热门内容

本栏最新

Counterpoint预测：2026年GenAI手机占比升至45%，高端市场或成主导

豆包专业版正式上线：办公能力升级，阶梯定价68元起还有学生特惠

米哈游论文探索：100个AI智能体在虚拟世界开启十年“人生”新旅程

中国工程院院士李骏：2026年自动驾驶安全监管迎拐点，迈入Safety Case新阶段

从30秒造车到托起大飞机重庆“智造天团”以硬核实力书写中国式现代化新篇

火山引擎FORCE大会：豆包2.1 Pro与Seedance 2.5登场，国产AI模型再攀高峰

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.