滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

牛津等机构研究：顶尖AI智能体复杂任务表现远逊人类新手

时间：2026-07-01 00:18:15 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

一项由牛津大学、麻省理工学院、香港中文大学等多家机构联合开展的研究，对当前人工智能智能体的实际能力提出了全新评估视角。研究团队指出，现有测试体系可能过度美化了AI系统的表现，其真实水平与公众认知存在显著差距。为验证这一猜想，科研人员开发了名为GauntletBench的测试平台，通过100项复杂任务对14个主流AI系统进行压力测试，结果发现最先进的模型仅能完成19.1%的任务，而普通人类参与者平均完成率达80.8%。

传统测试基准存在两大缺陷：其一，测试场景多取自AI训练数据中常见的电商平台、预订系统等，相当于用原题考察学生；其二，仅考察界面导航、表单填写等基础操作，忽视时间推理、空间判断等复杂能力。这种设计导致AI得分虚高却无法应对真实场景，研究团队将此现象称为"性能幻觉"。例如在视频编辑任务中，现有测试可能只要求定位播放按钮，而新测试会要求精确剪辑两个动作间的300毫秒间隔。

GauntletBench测试平台包含五个专业领域应用：三维建模工具、航班轨迹分析系统、电路仿真器、视频编辑软件和工作流设计平台。这些应用均采用现代网页技术构建，界面设计刻意避开AI熟悉的风格。每个应用设置20项任务，按难度分为三个等级，并开发了自动化评分系统。在航班分析场景中，系统通过集合匹配算法判断多架飞机轨迹，避免因答案顺序不同产生误判；电路测试则通过运行仿真验证输出结果，确保评分客观性。

测试结果显示开源模型表现最差，Gemma-3-27B等主流模型在100项任务中全部失败。通过API调用的闭源模型稍好，谷歌Gemini-3.1-Pro完成率13.2%为该类别最佳。完整智能体框架中，Anthropic的Claude Opus 4.6 Computer Use以19.1%的完成率领先，但人类参与者仍能轻松完成80%以上任务，且操作步骤比AI少30%。随着任务难度提升，AI表现呈现断崖式下跌，困难任务完成率不足10%，而人类表现相对稳定。

研究团队通过对照实验发现，模型规模与性能呈正相关，大模型在中等难度任务中反而消耗更少计算资源。扩展推理模式对强模型有帮助，Gemini在高推理模式下完成率提升一倍，但对弱模型效果有限。视觉输入至关重要，加入界面截图后Qwen系列模型进度评分提升43.5%。典型错误包括：持续操作破坏已完成结果、定位偏差导致操作错位、无视规则输出计划而非执行操作，以及开源模型普遍存在的格式错误和死循环问题。

人类参与者的优势体现在常识判断和错误修正能力。在三维建模任务中，人类能准确识别坐标系并完成空间计算，而AI常因基础定位失误偏离目标。电路设计场景中，人类通过观察电流方向理解元件关系，AI则难以建立这种抽象联系。研究特别指出，AI在简单任务中表现尚可，但复杂任务需要跨步骤协调时，错误会像滚雪球般累积，最终导致任务失败。

该研究对AI应用开发具有重要启示。当前系统在文档处理、数据检索等结构化任务中已具实用价值，但在医疗诊断、工业设计等需要深度推理的领域仍不可靠。开发者需重点提升操作精确性、状态感知能力和错误恢复机制，而非单纯追求模型规模。对于企业用户，研究建议对关键业务流程保留人工审核环节，特别是在涉及空间推理或时间序列分析的场景中。

测试平台目前仍在持续优化，未来计划扩展至金融分析、自动驾驶等更多专业领域，增加任务链条长度，并引入安全性评估维度。研究团队承认现有测试未能覆盖所有真实场景，例如未使用完整网页代码而仅提供截图可能限制AI发挥。但他们强调，这种"严苛考验"正是评估工具的必要属性——只有在陌生复杂环境中，才能准确判断技术的真实边界。

07-01

摩托罗拉发布moto tag 2蓝牙追踪器续航超500天，moto buds 2 plus耳机新增两款配色

07-01

优必选U1系列超仿生机器人来袭：高颜值高智能，开启人机恋爱新体验？

07-01

联想乐享4.0版本上线，以创新底座推动企业级AI迈向“闭环执行”新阶段

07-01

REDMI K90至尊版来袭！狂暴双芯+超强散热，2999元起开启游戏新体验

06-30

Kimi估值跃升至315亿美元新一轮融资启动收入曲线显强劲增长态势

06-30

小红书内部启动达尔文项目员工参与孵化或迎职级跃升与新品诞生

06-30

字节跳动入股拓扑之源，公司注册资本大幅增至44.39亿人民币

06-30

上纬新材CEO田华首谈布局：个人机器人赛道，如何抢占未来市场先机？

上纬新材CEO田华日前接受了界面新闻等媒体的采访，这是田华履新首席执行官以来首次正式对外发声，同时也是上纬新材首次对外详细拆解其在个人机器人赛道的布局逻辑。他说所有技术难题最后都是材料问题，上纬新材在轻量化…

06-30

优必选2026全球发布U1系列超仿生人形机器人，定位情感陪伴，订单已破1.1万台

其中，优世界 U1 Ultra 男款 99 万元、女款 88 万元；U1 Pro 为 16.98 万元，U1 Lite 为 11.98万元（IT之家注：前 5000 名用户可享受 1 万抵 2 万特别权…

06-30

大疆无人机飞控应用DJI Fly鸿蒙版正式登陆华为应用市场功能丰富便捷

IT之家 6 月 30 日消息，据多名IT之家读者投稿，大疆旗下无人机飞控应用 DJI Fly 现已正式上架 HarmonyOS鸿蒙应用市场，支持连接无人机、通过 Wi-Fi 查看相册、快捷传输素材到手机，…

06-30

千亿女首富周群飞首投具身智能，跨维智能凭啥获资本与市场双重认可？

事实上，蓝思和跨维的合作早于这笔投资，跨维的PickWiz具身智能软件和传感器，已经在蓝思的工厂现场跑过柔性分拣和柔性装配的真实任务。为了满足模型需求，在落地能力上，跨维没有一开始就押注人形机器人整机，而…

06-30

平衡车选购指南：九号迷你、小米等五款热门产品，哪款才是你的出行好伙伴？

我们将重点分析九号迷你平衡车、小米平衡车、Segway、Ninebot和Airwheel等五款产品，比较它们的性能、设计、续航、性价比等多个维度。接下来是Ninebot平衡车，Ninebot是Segway的子…

06-30

电动平衡车怎么选？小米有品、Ninebot等五款热门产品对比，帮你挑到心仪款

我们将重点关注小米有品新款mini智能电动平衡车，以及NinebotS、InMotionL8、AirwheelS3和SegwayminiPRO这几款产品。NinebotS的设计更为简约，适合城市通勤，但在越野…

06-30

雷军谈小米SU7 Ultra纽北表现：立志打造比肩保时捷特斯拉的梦想座驾

凤凰网科技讯6月30日，雷军发文回应了小米SU7Ultra纽北成绩，他表示：“我们造车之初就下决心要造媲美保时捷和特斯拉的梦想之车，感谢车友们的支持和认可。”近日，央视再度发文公开力挺中国自主汽车品牌，直接点…

06-30

点击查看更多 +

全站最新

REDMI K90至尊版来袭！狂暴双芯+超强散热，2999元起开启游戏新体验

雷军谈小米SU7 Ultra纽北表现：立志打造比肩保时捷特斯拉的梦想座驾

织密算力网络郑州打造全国算力“数纽”赋能数字中国建设

鸿蒙智行智界V9旗舰MPV受热捧 6月交付量突破5000台大关

14个月10万辆达成，东风日产以体系力破局新能源市场

现代汽车或效仿丰田：主流车型加速混动转型，纯燃油车渐行渐远

热门内容

本栏最新

REDMI K90至尊版来袭！狂暴双芯+超强散热，2999元起开启游戏新体验

雷军谈小米SU7 Ultra纽北表现：立志打造比肩保时捷特斯拉的梦想座驾

14个月10万辆达成，东风日产以体系力破局新能源市场

雷军谈小米SU7 Ultra纽北佳绩：初心铸就梦想之车，国产新能源闪耀全球赛道

纽北赛道见证中国电车实力！小米SU7 Ultra车主跑出佳绩，雷军发文致谢

AI创新研学之旅启程！7月23-24日探访北大京东百度商汤科技领航未来

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.