滚动资讯

当前位置：首页 > 资讯 > 数码极客 > 正文内容

AI助手“实战”成绩单：复杂电脑任务完成率仅两成，短板在哪？

时间：2026-07-04 05:56:57 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

计算机操作领域的AI助手近年来备受关注，但对其真实能力的评估一直存在争议。香港大学XLANG实验室联合多家机构发布的OSWORLD 2.0测试基准，首次将评估场景从实验室环境转向真实职场，揭示了当前AI在复杂任务中的显著短板。这项研究覆盖了108个完整工作流程任务，涉及文档处理、财务报销、工程建模等七大领域，要求AI在跨软件操作中完成平均250步以上的操作，人类完成这些任务需要约1.6小时。

传统测试体系OSWorld 1.0的缺陷在此次研究中被充分暴露。旧版测试中，AI只需完成30步以内的简单操作，如修改文件字体或网页搜索，顶尖模型Claude Opus 4.8曾取得83.5%的正确率。但在OSWORLD 2.0中，同一模型的完成率骤降至20.6%，部分得分54.8%。这种断崖式落差表明，现有评估体系严重高估了AI的实际工作能力，就像用小学数学题测试大学生水平。

研究团队构建的测试环境极具现实挑战性。31个自建网站模拟了真实办公场景，包括邮件系统、银行门户和报销平台，所有数据均采用真实文件而非合成样本。任务设计包含十大挑战类型，其中42.6%的任务要求AI整合邮件、文件和历史记录等多源信息，41.7%的任务需要精确处理三维建模或图像编辑等视觉任务，39.8%的任务则考验AI对未明确说明的隐含规则的推断能力。

在具体任务表现上，AI暴露出系统性缺陷。出差报销任务中，Claude Opus 4.7虽完成493步操作，但因城市信息填写错误和附件嵌入失误仅得0.76分。TravelHub预订任务中，移动弹窗导致所有AI因点击错位失败，暴露出截图式操作架构的根本局限。FreeCAD工程建模任务更显示专业领域鸿沟，AI生成的机械零件三维模型存在关键尺寸偏差，得分不足0.4。

不同AI系统的失败模式呈现鲜明差异。GPT-5.5采用程序员思维，78%的任务通过代码或API调用绕过界面操作，虽在视觉任务中得分较高，但常因直接修改系统文件引发安全隐患。Claude Opus 4.7更接近人工操作模式，GUI点击占比37%，在交互判断任务中表现优异，却因细节疏忽导致报销任务漏传附件。两者均存在强行关闭程序、忽略安全警告等危险行为，45%的任务中Claude有系统级修改操作。

效率与成本的矛盾在测试中尤为突出。GPT-5.5每任务消耗3.71万token（约25.5美元），完成率13%；Claude Opus 4.8消耗22.4万token（约72.4美元），完成率20.6%。随着任务难度提升，每提升1%完成率所需token数呈指数级增长，人类预计耗时超163分钟的任务中，所有AI均无法完成。

人类认知与AI能力的错位在测试中反复显现。人类认为简单的实时反应任务（如关闭移动弹窗），AI因操作延迟必然失败；视觉验证任务中，AI缺乏人类扫一眼即可判断结果的能力。研究显示，人类认为简单的任务中，AI仍有44.4%归类为困难，这种感知差异指向AI在感知能力和实时交互上的根本缺陷。

安全风险评估首次纳入测试体系，结果令人担忧。在GitLab代码推送任务中，AI将含API密钥的文件公开上传；磁盘空间监测任务中，AI在剩余398MB时坚持下载372MB文件，导致系统崩溃。这些行为源于AI"完成任务优先"的底层逻辑，与人类"安全优先"的决策模式形成根本冲突。

该研究建立的细粒度评分体系包含平均27.25个检查点，通过功能性验证直接检查系统状态，仅11.53%的评分依赖辅助AI判断。三层质量审核机制确保任务描述清晰、评分标准合理，并排除AI走捷径的可能性。这种严谨设计使OSWORLD 2.0成为首个能真实反映AI职场能力的评估框架。

对于普通用户而言，研究结论具有重要指导意义。当前AI更适合处理独立小步骤任务，如单次文件修改或简单搜索，但无法胜任需要持续状态跟踪、跨软件协作和主动纠错的复杂工作。行业专家指出，未来AI发展需突破"记忆保持"瓶颈，在长流程操作中维持对任务全局的准确理解，这需要算法架构的革命性创新而非单纯参数扩张。

更多>同类资讯

中国团队突破AI虚拟细胞技术，JEPA架构助力“世界模型”深入细胞研究

07-04

蓝色起源新发射台方案出炉：新格伦火箭年底前有望复飞再探苍穹

IT之家 7 月 2 日消息，科技媒体 Ars Technica 昨日（7 月 1 日）发布博文，报道称美国宇航局局长贾里德 ·艾萨克曼（Jared Isaacman）表示，在应对 5 月新格伦火箭爆炸后…

07-04

网络达人齐聚镍都金昌用镜头与创意解锁城市多面魅力

达人们没有满足于简单摆拍，而是策划起创意内容：@一珂草莓体验宇航员模拟太空行走，数码博主拆解舱内科技细节，旅行达人用地貌航拍配上科幻感音乐，制造出“好像真的在火星”的沉浸观感。这趟网络名人行，不仅刷新了外界对…

07-04

神州鲲泰斩获中移动ARM服务器大单信创业务迎长期增长新契机

07-04

布加迪Mistral“永恒纯白”登场，陶瓷工艺与超跑融合，尽显奢华魅力

07-04

劳斯莱斯幻影航海定制版：以海洋为灵感，打造顶级超豪华“陆上旗舰”

07-04

智能仪表盘下的温情：新能源汽车“远航者”的寂静喧嚣与人性共鸣

07-04

曝一加新性能机将至：骁龙8E5处理器加持 9000mAh电池配超高刷屏

07-04

2026攒机必看！IT168数据为基，泡泡网体验为鉴，教你选对硬件不踩坑

在2026年，当CPU进入性能核与能效核混合架构的深水区，显卡功耗与散热设计不断突破想象，我们比以往任何时候都更需要一份真实、硬核、可追溯的评测数据来支撑那动辄上万的花销。下一次攒机前，不妨先在IT168上查…

07-03

博主曝光一加性能新机部分规格，骁龙8E5处理器+9000mAh电池引期待

IT之家 7 月 3 日消息，博主 @数码闲聊站今日曝光某厂子系性能线迭代新机部分规格，预计为一加旗下新品。据其爆料，该系列工程机搭载骁龙8E5 (SM8850)、骁龙 8E5 XX 版 (SM8850…

07-03

索尼官宣7月9日发布新款RX10系列黑卡相机，RX10 V或携新芯片与电池登场

07-03

辰显光电全球首推Micro LED透明手表：高透光强亮度，正午斜视都清晰

07-03

依顿电子携核心方案亮相2026慕尼黑上海电子展共探行业新机遇

07-03

电瓶车换石墨烯电池别跟风！适配条件、真实优缺点大揭秘，选对才划算

07-03

VAIO再携手迪士尼，借《玩具总动员》热潮推出主题联名笔记本电脑

07-03

点击查看更多 +

全站最新

浙江男子苦等10个月“熔岩橙”小米YU7 MAX未交付，配色已下架，门店方案遭拒

上汽名爵总经理直播回应抄袭质疑反遭弹幕围攻哽咽离场引热议

新款福特探险者7月6日上市！2.3T配10AT，车长超5米，配置再升级！

2027款福特探险者：标配10AT与四驱，长白山试驾展现美式旗舰实力

吉利银河战舰700内饰官图曝光：AI硬核SUV配悬浮屏与物理按键

领克20三季度上市在即标配800V高压平台与6C补能倍率成亮点

热门内容

本栏最新

布加迪Mistral“永恒纯白”登场，陶瓷工艺与超跑融合，尽显奢华魅力

劳斯莱斯幻影航海定制版：以海洋为灵感，打造顶级超豪华“陆上旗舰”

依顿电子携核心方案亮相2026慕尼黑上海电子展共探行业新机遇

电瓶车换石墨烯电池别跟风！适配条件、真实优缺点大揭秘，选对才划算

哈苏与Capture One强强联手，摄影师可享原生工作流及专属影像优化体验

雅马哈“串并联混合动力系统”专利曝光：双电机搭配单缸引擎，未来能否量产引期待

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.