浙江大学联合南开大学、香港中文大学、上海交通大学及vivo AI实验室,共同完成了一项针对手机AI助手记忆能力的研究,相关成果已通过论文形式公开,论文编号为arXiv:2602.06075。这项研究指出,当前智能助手在跨应用信息记忆和长期学习方面存在明显短板,导致用户在实际使用中频繁遇到信息丢失、重复犯错等问题。
研究团队发现,现有评测体系对AI助手记忆能力的考察严重不足。在主流基准测试中,涉及记忆力的任务占比仅5.2%至11.8%,且完全未评估长期学习能力。这种评测方式如同只测试学生的计算能力而忽略记忆力,无法全面反映智能助手的实际表现。为填补这一空白,团队开发了名为MemGUI-Bench的全新评测框架,包含128道专门设计的记忆挑战题,覆盖购物、导航、笔记等26个日常应用场景。
这套评测体系通过"镜像题目"设计检验长期学习效果。每对题目在应用组合和认知需求上相似,但具体要求不同。例如,一道题目要求助手先在购房应用中查找公寓信息并记住地址和租金,再到搜索引擎查找公司地址,最后用地图应用计算通勤时间并记录结果;其镜像题目则可能要求比较不同区域的租金水平。这种设计使得助手在完成第一道题目时积累的经验,理论上应在处理第二道类似题目时发挥作用。
为确保评测公平性,研究团队开发了"快照式"评测框架。该系统能在每次测试前将手机环境恢复至完全相同的初始状态,并支持多次尝试评测。这使得AI助手有机会从失败中学习,而这一功能在以往评测中完全缺失。统计显示,128道题目中89.8%涉及跨应用信息记忆,平均每题需要36.2个操作步骤,其中78.1%的题目要求在多个应用间传递信息。
针对记忆任务的复杂性,研究团队设计了三阶段渐进式评分系统。第一阶段通过快速浏览任务最后三张截图和基本操作记录进行初步判断,可处理约60%的明确成功案例;第二阶段启动步骤描述员生成详细文字说明,并由语义判断员综合分析,对于记忆失败情况还会计算信息保持率;第三阶段采用针对性视觉验证,根据第二阶段判断员的指示精准提供相关截图进行最终确认。这种评分方式在准确性上达到93.1%-99.0%,同时将评测成本降低60%以上。
对11个主流AI助手的测试结果显示,即使是表现最好的M3A助手,在单次尝试测试中成功率也仅32.8%。当任务从单应用升级到四应用交叉时,顶级助手的成功率普遍下降16-40个百分点。例如,Agent-S2在AndroidWorld基准上能达到54.3%的成功率,但在记忆密集型任务中仅27.3%,下降27个百分点;GUI-Owl-7B的表现差距更大,从66.4%暴跌至6.2%,降幅达60.2个百分点。
记忆消融实验证实了记忆机制的重要性。移除M3A的记忆代理后,其成功率从32.5%暴跌至2.5%,信息保持率直接归零;Agent-S2移除长期记忆后,多次尝试成功率从45.0%下降到25.0%,失败恢复率从15.5%降到9.1%。研究还发现,长上下文能力能显著提升记忆表现。当M3A使用更长的对话历史时,成功率从32.8%提升至51.6%,提升幅度达18.8个百分点。
通过对1265次任务执行的详细分析,研究团队识别出五种典型记忆失败模式。部分记忆幻觉占非超时失败的主要比例,表现为记住部分信息但遗漏其他关键内容;过程记忆幻觉是最普遍的失败模式,助手在执行中途完全忘记最终目标;输出记忆幻觉则表现为操作流程正确但最终输出遗漏关键信息;知识缺陷反映助手缺乏完成任务所需的基础知识;意图误解则是助手对任务要求理解错误。统计分析显示,记忆相关幻觉占所有非超时失败的58.9%。
基于这些发现,研究团队提出了五项改进建议。开发多粒度记忆缓冲区,将不同类型信息分类存储以避免干扰;实施层次化任务分解,将复杂任务拆解为子任务并持续追踪总体进度;战略性利用长上下文,对信息进行重要性排序并压缩冗余内容;建立专门的长期记忆机制,记录成功操作模式和失败教训;开发混合式架构,结合框架式助手和端到端模型的优势,根据任务复杂度动态选择处理方式。
这项研究不仅为AI助手行业建立了首个专门针对记忆能力的评测基准,还提供了明确的改进路径。研究团队已承诺将所有代码、基准测试和评估结果完全开源,并持续维护更新。随着更多研究者和开发者基于这个基准进行优化,具备强大记忆能力的AI助手有望在未来成为现实,为用户提供更加智能和实用的交互体验。










