滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

基准测试不等于真实能力?研究称AI代码“通过率”或被高估最高达7倍

时间：2026-03-12 15:01:26 来源：CHINAZ编辑：快讯 IP：北京 发表评论无障碍通道

研究机构 METR 最新发布的一项研究显示，被广泛用于评估 AI 编程能力的基准测试 SWE-bench Verified 可能显著高估了 AI 代理在真实软件开发环境中的表现。研究发现，在基准测试中被判定为“通过”的 AI 代码解决方案中，大约一半在实际项目维护者审核时会被拒绝，这意味着自动化评测结果与真实工程质量之间存在明显差距。

SWE-bench Verified 长期被视为 AI 辅助软件工程的重要评估标准之一，用于测试模型是否能够解决开源项目中的真实编程问题，并通过自动化测试验证代码修改是否通过项目测试套件。包括 Anthropic 和 OpenAI 在内的多家 AI 公司也经常引用这一基准成绩展示模型能力进展。

在此次研究中，METR 团队邀请了维护开源项目 scikit-learn、Sphinx 和 pytest 的四名资深开发者，对296段 AI 生成代码进行人工评审。这些代码来自五个模型生成的解决方案，包括 Claude3.5Sonnet、Claude3.7Sonnet、Claude4Opus、Claude4.5Sonnet 以及 GPT-5。结果显示，维护者实际采纳率平均比 SWE-bench 自动评分低约24个百分点，这一差异具有统计学意义。

研究还发现，被拒绝的 AI 代码并非主要因为风格问题，而是存在更实质性的工程缺陷。维护者将问题分为三类:代码质量不符合项目规范、对现有代码结构造成破坏，以及基本功能错误。其中相当一部分案例属于功能性错误，即使自动化测试通过，代码仍未真正修复问题。

在模型对比方面，研究发现从 Claude3.5Sonnet 升级至 Claude3.7Sonnet 虽然显著提升了基准测试通过率，但维护者标记的功能性错误数量也有所增加;从 Claude3.7到 Claude4Opus，问题则更多转向代码质量层面，而 Claude4.5Sonnet 在代码质量方面有所改进。相比之下，GPT-5在本次评估中的整体表现明显落后于 Anthropic 系列模型。

研究团队还对“任务时间跨度”进行了估算分析:按 SWE-bench 自动评估结果推算，Claude4.5Sonnet 完成达到50% 成功率的任务需要约50分钟的人类工作量，而按维护者评分计算仅约8分钟，意味着基准测试可能存在高达约7倍的能力高估。

不过研究人员同时强调，该研究并不意味着 AI 编程代理能力存在根本性上限。通过更好的提示策略、更多人工反馈或多轮迭代，自动评估与人工评审之间的差距仍可能缩小。实验环境也与真实开发流程存在差异，例如 AI 代理只有一次提交机会，而人类开发者通常可以根据反馈不断修改代码。

总体而言，该研究指出，单纯依赖基准测试分数评估 AI 编程代理的实际效用可能产生系统性偏差。随着 AI 编码模型快速迭代，如何构建更接近真实开发环境的评估体系，正成为 AI 软件工程领域的重要研究方向。

更多>同类资讯

十年后开车或成小众爱好：自动驾驶浪潮下，生活技能正悄然蜕变

05-28

大模型赋能智能座舱：从同质化困局迈向主动服务新时代

05-28

2026新能源赛道：从价格混战到技术深耕，车市新较量正式启幕

05-28

问界M9改款来袭：配置升级Ultimate版选满近80万，能否再掀豪车风云？

05-28

日本30家龙头企业拟携手软银共筑国产AI模型力抗美中领先地位

05-28

新能安与张雪机车高层接洽合作，锂电池企业跨界短途出行引关注

05-28

具身智能奠基人苏昊入职复旦首讲：AI迈向人机共存需突破物理智能

苏昊说，即使是目前最先进的AI面对同样的场景还是做不到，它可以识别出纸箱，却无法知道拿起来是什么感觉，“物理理解的本质不是看到了什么，而是给定一个动作，预测它将带来的物理后果。”这和物理智能的方法论有一种天然…

05-28

云知声6月推U2大模型：跳出参数内卷，以智能密度开启AI新价值篇章

智能密度侧重单位参数承载的知识储备、推理水平与解题效率，Token价值聚焦模型调用后可落地的实际业务成效，打造出强性能、小体积、低成本、易落地的独特优势。实测层面，U2在IFBench指令遵循评测中稳居前列…

05-28

养老护理人员缺口超500万，服务机器人如何精准“读心”解难题？

（央视财经《天下财经》）随着养老服务需求持续攀升，我国养老护理人员缺口已超500万，市场对智能化照护产品的需求日益迫切。一款优秀的养老服务机器人不仅要技术过硬，更要真正读懂老年人的生理与心理需求，让老人用得安…

05-28

擎朗智能XMAN-L1亮相：以场景定义破局，为人形机器人商业落地探新径

凭借灵活的肢体运动与高智能的多轮语音交互，它向公众展示了具身服务机器人在未来商业空间中的应用潜力。这种从垂直细分场景向通用场景稳步推进的策略，不仅为上海乃至全国的人工智能产业注入了新动能，也为人形机器人的规模…

05-28

探访杭州机器人产业：具身智能崛起，机器人正为人类勇担重任

五月一号，杭州颁布了《杭州市促进具身智能机器人产业发展条例》，这是具身智能在全国范围内第一次拥有立法。从 DeepSeek大模型，到宇树、云深处等机器人制造，再到能用得上机器人的各种 AGV 企业，…

05-28

Figure公司人形机器人产能飙升，引领行业迈向制造与AI融合新阶段

A：行业竞争正从运动演示转向制造规模、可靠性、机群运营、AI数据收集和商业部署。现代人形系统越来越被视为数据生成平台，每台部署的机器人生成的运营数据可用于改进AI模型，形成反馈循环，使制造规模本身成为战略性…

05-28

云知声U2大模型即将登场：打破参数内卷，开启智能体商业化新篇章

智能密度侧重单位参数承载的知识储备、推理水平与解题效率，Token价值聚焦模型调用后可落地的实际业务成效，打造出强性能、小体积、低成本、易落地的独特优势。实测层面，U2在IFBench指令遵循评测中稳居前列…

05-28

星河AI网络赋能智慧空间：从龙岗艺术中心看城市“最小单元”进化

与传统场馆不同，龙岗国际艺术中心从建设之初就着眼于顶层设计和规划，从底层架构到上层体验进行系统性重构，彻底消除系统割裂、数据割裂、安全薄弱等痛点，充分展示了AI时代智慧艺术空间的进化方向。武兆辉补充道，过…

05-28

大模型也需要睡觉！让AI打个盹，醒来更聪明

05-28

点击查看更多 +

全站最新

一汽-大众35周年荣耀同行全新速腾S焕新登场开启家轿新篇章

蔚来ES8五座版7月登场！大尺寸强动力，能否搅动大五座SUV市场？

6月1日起《机动车驾驶人疲劳驾驶认定规则》实施，疲劳驾驶认定标准明确！

十年后开车或成小众爱好：自动驾驶浪潮下，生活技能正悄然蜕变

零跑D19增程版：25万内旗舰大型SUV，续航强配置高，性价比之选？

勤用勤养才是真护车：打破“少开少损”误区，让爱车焕发持久活力

热门内容

本栏最新

十年后开车或成小众爱好：自动驾驶浪潮下，生活技能正悄然蜕变

大模型赋能智能座舱：从同质化困局迈向主动服务新时代

2026新能源赛道：从价格混战到技术深耕，车市新较量正式启幕

10万级纯电SUV新选择！上汽MG 4X上市，半固态电池后驱配置全都有

全新一代问界M9上市！47.98万起售，配置拉满或成SUV市场新标杆

问界新M9升级来袭：从50万到80万，豪华配置再进阶冲击高端市场

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.