全球顶尖人工智能模型在管理个人数字账号时,表现远未达到预期水平。由上海交通大学联合多家国内外高校及研究机构开展的最新研究显示,即便最先进的AI系统在处理飞书日程安排、小红书内容发布、Slack消息发送等日常任务时,准确率普遍不足五成,部分复杂任务甚至完全无法完成。这项成果已在国际机器学习大会上发表,相关数据集和测试平台已向学术界开放。
研究团队构建的MCP-Persona测试系统,首次系统性地评估了AI在真实个人应用场景中的表现。该平台模拟了12个主流个人应用和12个通用信息服务的虚拟环境,涵盖社交媒体、企业协作、内容管理等三大类工具。测试任务设计刻意隐藏关键参数,要求AI像真实用户那样通过环境探索补全信息,例如仅通过"给上司发消息"的指令,就需要AI自主查找联系人ID、确定正确平台等前置操作。
在针对GPT-5、Claude-Sonnet-4.5等十余个前沿模型的测试中,表现最优的Claude-Sonnet-4.5仅达成38.66%的子目标准确率,完整任务成功率仅10.4%。企业协作类任务因涉及跨用户交互和复杂权限管理,成为模型表现最差的领域。当任务需要同时操作多个应用时(如将地图路线写入笔记并通知团队),所有模型的准确率均出现断崖式下跌。
典型失败案例暴露出三大技术瓶颈:约63%的错误源于AI未能主动探索环境信息,31%的错误发生在跳过必要前置步骤,还有27%的错误与长对话中的信息丢失有关。在飞书任务测试中,多数模型会直接使用手机号作为用户ID,而非先执行查询转换操作;处理小红书内容时,模型常因无法识别账号状态而发布失败。
研究团队通过对比实验发现,提供操作手册可提升模型表现,但效果有限。精心编写的手册能使GPT-5在飞书任务上的准确率从37.5%提升至45%,但公共平台下载的手册反而可能因信息过时导致性能下降。另一个关键发现是,限制工具数量能显著提升表现——当模型可调用的工具从140个减少到任务相关工具时,复杂任务的成功率平均提升18%。
这项研究采用的创新评估方法获得学界认可。通过构建包含24个虚拟服务器的模拟环境,结合脱敏真实数据和自动生成的多样化操作轨迹,测试平台在保持94%行为一致率的同时,完全避免了隐私泄露风险。人工评审与AI裁判的评分一致性达91.55%,验证了评估体系的可靠性。成本分析显示,GPT-5以每个任务0.09美元的成本实现最高性价比,证明单纯增加计算资源并非提升性能的有效途径。
当前测试任务库已包含173个多步骤场景,平均每个任务需要调用4.2个工具并处理隐性信息。研究团队透露,后续将扩展测试范围至电商、金融等更多垂直领域,并开发能自动识别模型思维过程的解释性评估工具。完整论文可通过arXiv编号2606.02470获取,相关代码和数据集已在GitHub公开。











