滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

上交大联合多团队研究：AI管理个人账号表现欠佳，短板待突破

时间：2026-06-07 03:49:55 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

全球顶尖人工智能模型在管理个人数字账号时，表现远未达到预期水平。由上海交通大学联合多家国内外高校及研究机构开展的最新研究显示，即便最先进的AI系统在处理飞书日程安排、小红书内容发布、Slack消息发送等日常任务时，准确率普遍不足五成，部分复杂任务甚至完全无法完成。这项成果已在国际机器学习大会上发表，相关数据集和测试平台已向学术界开放。

研究团队构建的MCP-Persona测试系统，首次系统性地评估了AI在真实个人应用场景中的表现。该平台模拟了12个主流个人应用和12个通用信息服务的虚拟环境，涵盖社交媒体、企业协作、内容管理等三大类工具。测试任务设计刻意隐藏关键参数，要求AI像真实用户那样通过环境探索补全信息，例如仅通过"给上司发消息"的指令，就需要AI自主查找联系人ID、确定正确平台等前置操作。

在针对GPT-5、Claude-Sonnet-4.5等十余个前沿模型的测试中，表现最优的Claude-Sonnet-4.5仅达成38.66%的子目标准确率，完整任务成功率仅10.4%。企业协作类任务因涉及跨用户交互和复杂权限管理，成为模型表现最差的领域。当任务需要同时操作多个应用时（如将地图路线写入笔记并通知团队），所有模型的准确率均出现断崖式下跌。

典型失败案例暴露出三大技术瓶颈：约63%的错误源于AI未能主动探索环境信息，31%的错误发生在跳过必要前置步骤，还有27%的错误与长对话中的信息丢失有关。在飞书任务测试中，多数模型会直接使用手机号作为用户ID，而非先执行查询转换操作；处理小红书内容时，模型常因无法识别账号状态而发布失败。

研究团队通过对比实验发现，提供操作手册可提升模型表现，但效果有限。精心编写的手册能使GPT-5在飞书任务上的准确率从37.5%提升至45%，但公共平台下载的手册反而可能因信息过时导致性能下降。另一个关键发现是，限制工具数量能显著提升表现——当模型可调用的工具从140个减少到任务相关工具时，复杂任务的成功率平均提升18%。

这项研究采用的创新评估方法获得学界认可。通过构建包含24个虚拟服务器的模拟环境，结合脱敏真实数据和自动生成的多样化操作轨迹，测试平台在保持94%行为一致率的同时，完全避免了隐私泄露风险。人工评审与AI裁判的评分一致性达91.55%，验证了评估体系的可靠性。成本分析显示，GPT-5以每个任务0.09美元的成本实现最高性价比，证明单纯增加计算资源并非提升性能的有效途径。

当前测试任务库已包含173个多步骤场景，平均每个任务需要调用4.2个工具并处理隐性信息。研究团队透露，后续将扩展测试范围至电商、金融等更多垂直领域，并开发能自动识别模型思维过程的解释性评估工具。完整论文可通过arXiv编号2606.02470获取，相关代码和数据集已在GitHub公开。

更多>同类资讯

英伟达7亿美元收购后现波澜：AI大牛贾扬清离职，云服务布局或生变？

06-29

融资扩招后DeepSeek的挑战：如何平衡规模扩张与保持创新锋芒

06-29

豆包APP新增导航功能：步行骑行可原生导航，驾车公交跳转高德

06-29

盒马“双剑合璧”：鲜生筑盾护城，NB执矛拓疆，零售新局如何破？

06-29

马斯克55岁生日与家人共庆，定制蛋糕显特色，许愿人类未来光明

06-29

极端热浪席卷欧洲引空调抢购潮中国品牌格力、海信、TCL积极应对市场激增需求

06-29

马斯克Grok 4.5开启内测，性能或超Claude Opus，年内每月推新模型

虽然马斯克没有提供关于Grok4.5功能的详细技术信息，但Cursor训练数据的加入表明，Grok将继续重视软件开发和编码辅助，这是大型语言模型最重要的商业应用之一。此次公告发布之际，xAI正持续扩展其…

06-29

链博会“数智”升级首设AI专区，中国人工智能企业超532万家蓬勃发展

【环球网科技综合报道】第四届链博会正在北京举行，最大亮点是原"数字科技链"升级为"数智科技链"，首次设立人工智能专区。科大讯飞指出，AI竞争已从单点算法进入"系统能力竞争"阶段，正从工具升级为产业基础设施。 …

06-29

马斯克Grok 4.5引热议：每月推新模型，AI战局或迎新变数？

马斯克到底是在打AI模型战的翻身仗，还是一个着急把手里算力变现的AI输家？更值得注意的是，马斯克并没有把Grok4.5说成“碾压所有模型”的王炸。 Grok 4.5在SpaceX和Tesla内部私测，表…

06-29

豆包被传内测社交功能？官方回应：专注办公场景，暂无跨界社交计划

PChome 6月29日消息，近日网络上流传字节跳动旗下AI产品豆包正在内测社交功能的消息，引发行业热议。豆包相关负责人向《每日经济新闻》记者回复，在企业办公场景，豆包是和飞书有一些协同的尝试，未来也会合作…

06-29

豆包内测社交功能引热议官方回应：与飞书协同办公无社交布局计划

PChome 6月29日消息，近日网络上流传字节跳动旗下AI产品豆包正在内测社交功能的消息，引发行业热议。豆包相关负责人向《每日经济新闻》记者回复，在企业办公场景，豆包是和飞书有一些协同的尝试，未来也会合作…

06-29

全球首座AI艺术馆Dataland启幕：以生物传感技术开启雨林沉浸对话新体验

由数字艺术家雷菲克·安纳多尔（Refik Anadol）和埃夫孙·埃尔基利奇（EfsunErkılıç）创立的Dataland，上周正式向公众开放其首个展览《机器梦境：雨林》（Machine Dreams:…

06-29

豆包“进化”：从聊天助手到代码高手，能否在硬核赛场证明自己？

可几乎没有人去写它能了——能不能在真实的工程里，把一件难活从头干到尾。这份笃定也不是孤证：ezona、WPS、沐瞳、OPPO、美的都已经在邀测里把它跑通、落了地，字节自己内部，AI 写的代码也早已大规模上线…

06-29

B站17年：在流量狂潮中，如何让创作者与用户双向奔赴共成长？

就连我们之前一度也觉得，在现在的算法时代，内容创作者最终结局都是沦为一个个流量工具人。所以 B 站能攒下这种长期关系，靠的不是 UP 主单方面坚持，也不是用户单方面用爱发电，而是创作者和用户之间真的形成了…

06-29

马斯克宣布Grok 4.5开启内测，性能比肩Claude Opus且年内每月推新模型

虽然马斯克没有提供关于Grok4.5功能的详细技术信息，但Cursor训练数据的加入表明，Grok将继续重视软件开发和编码辅助，这是大型语言模型最重要的商业应用之一。此次公告发布之际，xAI正持续扩展其…

06-29

点击查看更多 +

全站最新

豆包内测社交功能引热议官方回应：与飞书协同办公无社交布局计划

全球首座AI艺术馆Dataland启幕：以生物传感技术开启雨林沉浸对话新体验

豆包“进化”：从聊天助手到代码高手，能否在硬核赛场证明自己？

夏日加油必知：加满隐患、过期判断、标号真相及劣质油应对全攻略

高压水枪洗车致蔚来车辆漆面受损？规范操作才是养护关键

DS N7 E-Tense纯电SUV上市最高740km续航 350马力四驱版5.4秒破百

热门内容

本栏最新

豆包内测社交功能引热议官方回应：与飞书协同办公无社交布局计划

全球首座AI艺术馆Dataland启幕：以生物传感技术开启雨林沉浸对话新体验

豆包“进化”：从聊天助手到代码高手，能否在硬核赛场证明自己？

纽北赛道见证奇迹！民间车主驾小米SU7 Ultra破圈速央视力挺国产车实力

6月新车大放送！从家用到豪华，这6款高性价比车型不容错过

石头科技Prime Day大捷：扫地机欧洲称王，洗地机高增长背后的技术突围战

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.