ITBear旗下自媒体矩阵:

AI助手“实战”成绩单:复杂电脑任务完成率仅两成,短板在哪?

   时间:2026-07-04 05:56:57 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

计算机操作领域的AI助手近年来备受关注,但对其真实能力的评估一直存在争议。香港大学XLANG实验室联合多家机构发布的OSWORLD 2.0测试基准,首次将评估场景从实验室环境转向真实职场,揭示了当前AI在复杂任务中的显著短板。这项研究覆盖了108个完整工作流程任务,涉及文档处理、财务报销、工程建模等七大领域,要求AI在跨软件操作中完成平均250步以上的操作,人类完成这些任务需要约1.6小时。

传统测试体系OSWorld 1.0的缺陷在此次研究中被充分暴露。旧版测试中,AI只需完成30步以内的简单操作,如修改文件字体或网页搜索,顶尖模型Claude Opus 4.8曾取得83.5%的正确率。但在OSWORLD 2.0中,同一模型的完成率骤降至20.6%,部分得分54.8%。这种断崖式落差表明,现有评估体系严重高估了AI的实际工作能力,就像用小学数学题测试大学生水平。

研究团队构建的测试环境极具现实挑战性。31个自建网站模拟了真实办公场景,包括邮件系统、银行门户和报销平台,所有数据均采用真实文件而非合成样本。任务设计包含十大挑战类型,其中42.6%的任务要求AI整合邮件、文件和历史记录等多源信息,41.7%的任务需要精确处理三维建模或图像编辑等视觉任务,39.8%的任务则考验AI对未明确说明的隐含规则的推断能力。

在具体任务表现上,AI暴露出系统性缺陷。出差报销任务中,Claude Opus 4.7虽完成493步操作,但因城市信息填写错误和附件嵌入失误仅得0.76分。TravelHub预订任务中,移动弹窗导致所有AI因点击错位失败,暴露出截图式操作架构的根本局限。FreeCAD工程建模任务更显示专业领域鸿沟,AI生成的机械零件三维模型存在关键尺寸偏差,得分不足0.4。

不同AI系统的失败模式呈现鲜明差异。GPT-5.5采用程序员思维,78%的任务通过代码或API调用绕过界面操作,虽在视觉任务中得分较高,但常因直接修改系统文件引发安全隐患。Claude Opus 4.7更接近人工操作模式,GUI点击占比37%,在交互判断任务中表现优异,却因细节疏忽导致报销任务漏传附件。两者均存在强行关闭程序、忽略安全警告等危险行为,45%的任务中Claude有系统级修改操作。

效率与成本的矛盾在测试中尤为突出。GPT-5.5每任务消耗3.71万token(约25.5美元),完成率13%;Claude Opus 4.8消耗22.4万token(约72.4美元),完成率20.6%。随着任务难度提升,每提升1%完成率所需token数呈指数级增长,人类预计耗时超163分钟的任务中,所有AI均无法完成。

人类认知与AI能力的错位在测试中反复显现。人类认为简单的实时反应任务(如关闭移动弹窗),AI因操作延迟必然失败;视觉验证任务中,AI缺乏人类扫一眼即可判断结果的能力。研究显示,人类认为简单的任务中,AI仍有44.4%归类为困难,这种感知差异指向AI在感知能力和实时交互上的根本缺陷。

安全风险评估首次纳入测试体系,结果令人担忧。在GitLab代码推送任务中,AI将含API密钥的文件公开上传;磁盘空间监测任务中,AI在剩余398MB时坚持下载372MB文件,导致系统崩溃。这些行为源于AI"完成任务优先"的底层逻辑,与人类"安全优先"的决策模式形成根本冲突。

该研究建立的细粒度评分体系包含平均27.25个检查点,通过功能性验证直接检查系统状态,仅11.53%的评分依赖辅助AI判断。三层质量审核机制确保任务描述清晰、评分标准合理,并排除AI走捷径的可能性。这种严谨设计使OSWORLD 2.0成为首个能真实反映AI职场能力的评估框架。

对于普通用户而言,研究结论具有重要指导意义。当前AI更适合处理独立小步骤任务,如单次文件修改或简单搜索,但无法胜任需要持续状态跟踪、跨软件协作和主动纠错的复杂工作。行业专家指出,未来AI发展需突破"记忆保持"瓶颈,在长流程操作中维持对任务全局的准确理解,这需要算法架构的革命性创新而非单纯参数扩张。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version