滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

GPT-5编程测试被指动手脚：自行省略23题引发争议

时间：2025-08-12 14:58:13 来源：量子位编辑：快讯团队 IP：北京 发表评论无障碍通道

近期，有关GPT-5编程能力的讨论在科技圈内引发了广泛关注。有细心网友发现，OpenAI在评估GPT-5编程能力时，似乎并未完全遵循自己提出的SWE-bench Verified标准。

据悉，SWE-bench是业界公认的评估模型自主编程能力的基准之一，而SWE-bench Verified则是其经过精心筛选的子集，原本包含500个问题。然而，OpenAI在测试GPT-5时，却仅使用了其中的477个问题。

这一发现立即引发了质疑。为何OpenAI要省略掉这23个问题？有网友指出，早在GPT-4.1发布时，OpenAI就曾以部分问题无法在其基础设施上运行为由，忽略了部分测试题。如今，这一操作在GPT-5上再次上演，难免让人对其测试结果的公正性和准确性产生怀疑。

更令人惊讶的是，有网友发现，如果这23个被省略的问题默认得零分，那么GPT-5的得分实际上与Claude Opus 4.1相比并无显著优势。这一发现无疑给GPT-5的编程能力蒙上了一层阴影。

值得注意的是，OpenAI在提出SWE-bench Verified时，曾明确表示这是为了更准确地评估模型的编程能力。他们与SWE-bench的作者合作，共同发起了一项人工注释活动，筛选出了500个经过验证的样本。然而，如今他们却自行缩减了这个子集，这无疑是对自己提出标准的背叛。

网友们还发现，OpenAI在比较GPT-5与Claude Opus 4.1时，存在不公平之处。他们是将经过最大思维努力的GPT-5与未扩展思维的Opus 4.1进行比较，这种比较方式显然没有参考价值。

面对这些质疑和发现，OpenAI尚未给出正式回应。然而，这一事件已经引发了业界对大型语言模型评估标准的深入讨论。有专家指出，为了确保评估结果的公正性和准确性，应该制定更加严格和统一的评估标准，并避免自行更改或缩减测试集。

与此同时，也有网友表示，虽然GPT-5的编程能力可能并不如OpenAI所宣传的那么强大，但它仍然是一款非常优秀的语言模型。他们期待OpenAI能够正视这些问题，并不断改进和完善自己的模型。

在SWE-bench这一最原始的榜单中，Claude 4 Opus仍然占据着领先位置。这也从一个侧面反映了当前大型语言模型评估的复杂性和多样性。对于用户来说，选择哪款模型取决于他们的具体需求和场景。而对于模型开发者来说，不断提升模型的性能和准确性才是永恒的追求。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

理想汽车高管详解MEGA机舱盖用钢原因：安全考量胜于铝材减重

08-12

问界M7新配色“海岛蓝”亮相，余承东揭秘首搭华为ADS 4及舱内激光方案

08-12

特斯拉Semi电动半挂卡车量产提速，马斯克确认2026年大规模上市

08-12

四川机器人“天团”亮相世界大会，展现高科技实力与产业新风貌

四川天链机器人股份有限公司运营总监颜进介绍，T1Ultra的推出，标志着该公司机器人从“技术验证”向“规模化落地”的关键迈进，丰富了其覆盖不同需求层次的产品矩阵。 “在本次世界机器人大会上，我们了解了产业发…

08-12

2025世界机器人大会：人形机器人等展品展现未来生活无限可能

8月8日在2025世界机器人大会展馆内拍摄的人形机器人。 2025世界机器人大会8月8日至12日在北京亦庄举行，大会设置的创新馆、应用馆、技术馆，汇聚了国内外200余家机器人企业的1500余件展品，其中有5…

08-12

中国科学家创新融合BT与AI，成功研发全球首台智能育种机器人“吉儿”

研究团队还开辟出“BT筑基+AI赋能+机器人(Robot)劳作”的智能育种(BAR)模式，标志着中国率先完成自主知识产权的智能机器人育种闭环技术体系构建，在生物育种范式革新等方面展现出“人工智能驱动科学研究…

08-12

中联重科世界机器人大会展现：工业机器人到人形机器人智能进化之路

作为全球装备制造领军企业，中联重科以智能制造以及智能机器人研发的综合视角，和与会嘉宾分享了工业机器人和人形机器人在制造业的应用落地，全面呈现从“环境适应机器人”到“机器人适应环境”的发展，展示了中联重科在具身…

08-12

国产机器人海外受热捧：多场景应用成新亮点

记者了解到，我国工业机器人产量和装机量连续多年位居全球第一，人形机器人发展领跑全球。当前，业内企业的新技术、新产品正在快速走向海外，不仅扩大了国际影响力和市场份额，也吸引了众多国际投资方的关注。在会场中，记…

08-12

2025世界机器人大会：智能机器人加速融入生活，展现多样风采

8月8日，一款服务机器人在演示抓取物品。 8月8日，观众在观看长谷木展示的骨科智能手术机器人。8月8日，观众在2025世界机器人大会上观看人形机器人拳击表演。 8月8日，观众观看逐际动力多形态双足机器人表…

08-12

华为乾崑智驾系统搭载车辆突破百万，携手22家品牌引领智能驾驶新时代

凤凰网科技讯8月12日，华为智能汽车解决方案BUCEO靳玉志通过微博公布，华为乾崑智驾搭载的汽车数量已正式突破100万大关。目前，国内绝大多数主机厂都选择与华为乾崑展开合作，合作品牌超过22家，覆盖了80%的…

08-12

华为智能汽车解决方案突破：乾崑智驾系统搭载车辆超百万

每经AI快讯，8月12日，华为智能汽车解决方案BUCEO靳玉志微博发文宣布，搭载华为乾崑智驾的汽车突破100万辆。每日经济新闻【免责声明】本文仅代表作者本人观点，与无关。站对文中陈述、观点判断保持…

08-12

从“造车梦碎”到“算力新星”：富士康旧厂变身软银数据中心关键

从“造车梦“到“AI梦”，富士康在美工厂转身

08-12

湖北十大实验室成果璀璨，“东方慧眼”卫星系统引领智能遥感新时代

08-12

花湖机场飞机维修基地正式启动，打造华中宽体货机维修新标杆

08-12

太空探索新纪元：星舰启航，人类向星际文明迈进的壮丽征程

08-12

点击查看更多 +

全站最新

中联重科世界机器人大会展现：工业机器人到人形机器人智能进化之路

国产机器人海外受热捧：多场景应用成新亮点

2025世界机器人大会：智能机器人加速融入生活，展现多样风采

华为乾崑智驾系统搭载车辆突破百万，携手22家品牌引领智能驾驶新时代

华为智能汽车解决方案突破：乾崑智驾系统搭载车辆超百万

从“造车梦碎”到“算力新星”：富士康旧厂变身软银数据中心关键

热门内容

本栏最新

2025世界机器人大会：人形机器人等展品展现未来生活无限可能

中国科学家创新融合BT与AI，成功研发全球首台智能育种机器人“吉儿”

中联重科世界机器人大会展现：工业机器人到人形机器人智能进化之路

国产机器人海外受热捧：多场景应用成新亮点

2025世界机器人大会：智能机器人加速融入生活，展现多样风采

华为乾崑智驾系统搭载车辆突破百万，携手22家品牌引领智能驾驶新时代

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.