一项由牛津大学、麻省理工学院、香港中文大学等多家机构联合开展的研究,对当前人工智能智能体的实际能力提出了全新评估视角。研究团队指出,现有测试体系可能过度美化了AI系统的表现,其真实水平与公众认知存在显著差距。为验证这一猜想,科研人员开发了名为GauntletBench的测试平台,通过100项复杂任务对14个主流AI系统进行压力测试,结果发现最先进的模型仅能完成19.1%的任务,而普通人类参与者平均完成率达80.8%。
传统测试基准存在两大缺陷:其一,测试场景多取自AI训练数据中常见的电商平台、预订系统等,相当于用原题考察学生;其二,仅考察界面导航、表单填写等基础操作,忽视时间推理、空间判断等复杂能力。这种设计导致AI得分虚高却无法应对真实场景,研究团队将此现象称为"性能幻觉"。例如在视频编辑任务中,现有测试可能只要求定位播放按钮,而新测试会要求精确剪辑两个动作间的300毫秒间隔。
GauntletBench测试平台包含五个专业领域应用:三维建模工具、航班轨迹分析系统、电路仿真器、视频编辑软件和工作流设计平台。这些应用均采用现代网页技术构建,界面设计刻意避开AI熟悉的风格。每个应用设置20项任务,按难度分为三个等级,并开发了自动化评分系统。在航班分析场景中,系统通过集合匹配算法判断多架飞机轨迹,避免因答案顺序不同产生误判;电路测试则通过运行仿真验证输出结果,确保评分客观性。
测试结果显示开源模型表现最差,Gemma-3-27B等主流模型在100项任务中全部失败。通过API调用的闭源模型稍好,谷歌Gemini-3.1-Pro完成率13.2%为该类别最佳。完整智能体框架中,Anthropic的Claude Opus 4.6 Computer Use以19.1%的完成率领先,但人类参与者仍能轻松完成80%以上任务,且操作步骤比AI少30%。随着任务难度提升,AI表现呈现断崖式下跌,困难任务完成率不足10%,而人类表现相对稳定。
研究团队通过对照实验发现,模型规模与性能呈正相关,大模型在中等难度任务中反而消耗更少计算资源。扩展推理模式对强模型有帮助,Gemini在高推理模式下完成率提升一倍,但对弱模型效果有限。视觉输入至关重要,加入界面截图后Qwen系列模型进度评分提升43.5%。典型错误包括:持续操作破坏已完成结果、定位偏差导致操作错位、无视规则输出计划而非执行操作,以及开源模型普遍存在的格式错误和死循环问题。
人类参与者的优势体现在常识判断和错误修正能力。在三维建模任务中,人类能准确识别坐标系并完成空间计算,而AI常因基础定位失误偏离目标。电路设计场景中,人类通过观察电流方向理解元件关系,AI则难以建立这种抽象联系。研究特别指出,AI在简单任务中表现尚可,但复杂任务需要跨步骤协调时,错误会像滚雪球般累积,最终导致任务失败。
该研究对AI应用开发具有重要启示。当前系统在文档处理、数据检索等结构化任务中已具实用价值,但在医疗诊断、工业设计等需要深度推理的领域仍不可靠。开发者需重点提升操作精确性、状态感知能力和错误恢复机制,而非单纯追求模型规模。对于企业用户,研究建议对关键业务流程保留人工审核环节,特别是在涉及空间推理或时间序列分析的场景中。
测试平台目前仍在持续优化,未来计划扩展至金融分析、自动驾驶等更多专业领域,增加任务链条长度,并引入安全性评估维度。研究团队承认现有测试未能覆盖所有真实场景,例如未使用完整网页代码而仅提供截图可能限制AI发挥。但他们强调,这种"严苛考验"正是评估工具的必要属性——只有在陌生复杂环境中,才能准确判断技术的真实边界。








