滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

AI打榜争议背后：真实约束下的技术较量，谁在守护榜单的纯粹性？

时间：2026-04-12 09:38:39 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

一场围绕AI Agent评估标准的激烈争论，在机器学习领域掀起轩然大波。事件的导火索是一家名为Disarray的初创公司，在MLE-Bench榜单上提交了77.78分的惊人成绩，而此前全球顶尖团队数月角逐的分数始终徘徊在60分左右。这一近20分的差距，不仅打破了技术竞赛的常规节奏，更将"如何公平评估AI能力"这一核心问题推上风口浪尖。

MLE-Bench由OpenAI设计，被称为机器学习领域的"铁人三项"。其测试内容涵盖70余道真实Kaggle竞赛题，要求AI Agent独立完成从数据清洗到模型集成的全流程。每道题需运行三次取平均值，单次提交的算力成本高达数万美元，耗时数周。这种高门槛设计本应确保榜单权威性，但Disarray的出现彻底改变了竞争格局。

争议焦点在于测试集设计存在重大漏洞。由于无法获取真实私有测试集，OpenAI将公开数据集拆分为"公开测试集"和"模拟私有测试集"两部分。然而这两部分数据均曾公开流传，相当于让考生提前接触了部分考题。Disarray的AI系统被曝出通过识别Kaggle比赛与Stanford Dogs数据集的关联，在狗品种识别任务中取得接近零分的异常成绩；在GPS定位任务中甚至跑出物理上几乎不可能的零误差结果。

更微妙的是反馈机制问题。Disarray团队承认，其AI在运行过程中会接收来自"模拟私有测试集"的二元反馈信号——系统会告知当前表现是否达到铜牌标准。这种设计被批评者形容为"考试时老师不断提示答题进度"，尽管每次反馈仅包含一个比特的信息量，但足以让AI调整策略优先攻克特定题目。资深研究者AtrixTang指出，这相当于用期末考试题进行随堂测验，严重违背了评估初衷。

在PR #118提交页面的评论区，七种立场激烈交锋。Disarray坚持所有操作符合现有规则，强调反馈信号仅用于资源管理；团队核心发言人dorx承认利用了系统漏洞，但将其包装为"跨任务学习能力"。质疑者则直指核心：这些高分究竟测量的是工程能力还是规则漏洞利用能力？作为榜单设计者之一的thesofakillers态度微妙，认为利用漏洞"可以接受但不理想"，建议添加脚注说明情况。

在这场争论中，百度伐谋团队的选择形成鲜明对比。该团队早在2025年10月就以43.56分创下当时纪录，却在12月拒绝使用更新的gemini-pro-3.0模型，坚持用2.5版本验证Agent架构升级效果。这种"舍分数求真相"的做法，在追求短期排名的竞赛环境中显得格格不入。团队负责人解释："我们需要知道成绩提升来自模型改进还是架构优化，就像训练运动员不能同时换跑鞋和训练方法。"

面对Disarray的77.78分，百度伐谋没有选择质疑或模仿，而是设计对照实验：在完全禁用私有测试集反馈、外部数据和已知漏洞的条件下，使用最新模型重新提交。2026年2月23日公布的64.44分虽然低于Disarray，但因其严格的实验条件引发行业关注。这个分数证明，在真实世界约束条件下，他们的技术路径仍保持领先。

这场风波最终推动评估体系改革。2026年3月，MLE-Bench新增"数据泄漏说明"赛道，将存在争议的提交移至独立榜单并添加警示标识。百度伐谋2.0版本凭借无泄漏记录重回主榜榜首。维护者选择"先收录后警示"的务实方案，既保留了技术探索空间，又通过信息透明维护了评估公信力。

当其他团队忙着解读规则漏洞时，百度伐谋始终聚焦真实场景需求。作为全球首个可商用自我演化智能体，其技术路线直接服务于销量预测、推荐系统等民生领域。在这些场景中，AI不可能获取未来数据或外部反馈，必须依靠给定训练集独立完成优化。这种"带着镣铐跳舞"的研发哲学，或许解释了他们为何坚持最严格的评估标准——因为真实世界的约束，远比任何竞赛规则更严苛。

更多>同类资讯

2026粤港澳大湾区车展5月29日启幕，小米汽车携YU7家族两款新品强势登场

IT之家5月22日消息，小米汽车今日宣布全系产品将亮相2026粤港澳大湾区车展，重点介绍YU7家族两款新品，YU7标准版、YU7GT也将来到现场。地址丨深圳国际会展中心（宝安）展位丨3号馆·05展位日程丨5.…

05-23

小米YU7家族添新成员：标准版对标特斯拉，GT版剑指BBA，全球化野心凸显

实话说，当时我们认为我们的产品线过于复杂，所以从4款改为3款，少了一款标准版，对YU7和ModelY竞争特别不利。GT因为是一款旗舰型跑车型的SUV，它无论是底盘、电机都非常高端，它的爬产会比较困难，初期每个…

05-23

小米YU7十个月八败两胜对决Model Y，雷军坦言：输给销冠不气馁，改进后未来可期

雷军没有辩解，只说了句“没错，这真的是我们当时的问题”，并强调这一点已经迅速改进。但YU7并非没有亮剑时刻。在今年1月和2月，它曾连续两个月在销量上反超Model Y，其中1月更是以37869辆的成绩直接夺…

05-23

雷军顺应期待推YU7标准版，定价降2万但诚意未达大众预期？

之前曝光了许久的YU7入门款汽车，或者说低配版，终于在小米的发布会上落实了。与之前的标准版，相比，正如网上曝光的一模一样，只是电池少了20度电，从原来的96.3度的铁锂电池，降至73度电，少了23度电。最后发…

05-23

小米YU7 GT纽北夺冠引热议，质疑声中彰显中国汽车硬实力

那就是如果由更厉害的国外专业车手来驾驶YU7GT，在纽北的成绩会更好，雷军表示，实际最好成绩是纽北跑出7分22秒755、比第二名提高了14秒的成绩。所以小米YU7GT能拿第一名，且比第二名成绩好出这么多，就是…

05-23

雷军反思决策偏差小米YU7五款车型齐发 30万级纯电市场激战正酣

这一决策的失误已被市场数据验证：雷军披露，70%的特斯拉ModelY用户选择了593公里续航的中低续航版，500～600公里续航足以覆盖日常通勤需求。至此，YU7形成了标准版、长续航版、Pro版、Max版、G…

05-23

对话未来智能CEO马啸：AI硬件成共识，聚焦办公场景，耳机将迎二次革命

这是AI硬件公司未来智能CEO马啸在近日的新品发布会上，和搜狐科技等媒体沟通时谈到的对AI硬件的理解。现在模型的能力是足够的，最重要的是怎么把这个范式在用户场景下清晰呈现出来，这非常考验产品经理的本事。提…

05-23

乡村旅游“小而美”新业态崛起：从打卡到沉浸，科技文化赋能再升级

她说：“我在社交媒体上发了九宫格照片，这里的景色，美到失语。” 晨起在东华寺听梵音、去艺术馆看画，午后在兰园品茗、果园摘果，夜晚泡温泉……一个完整的生活体验场，让前来广东翁源的游客体验到岭南田园牧歌式的时光，…

05-23

日系车“心脏”中国造：日本供应链式微，全球汽车产业格局生变

对日本制造业来说，比销量崩盘更可怕的，是日系车正在变成“中国车”。

05-23

B站2026年Q1财报亮眼：AI助力广告腾飞，开启盈利增长新篇章

05-23

联想业绩创新高！杨元庆立下目标：两年内营收冲刺千亿美元

05-23

菜鸟ZeeBot攀爬机器人：突破3D物流难题，国内外市场拓展正当时

05-23

光电板块四强争霸！京东方TCL等财报亮点与后市走势深度剖析

05-23

惠康科技登陆A股：以技术创新与品牌沉淀，开启制冷领域全球新征程

05-23

AI浪潮下：大厂裁员三万，人类或成生产链“效率瓶颈”？

05-23

点击查看更多 +

全站最新

北京养老服务地图上线高德：一键查询养老机构，科技助力智慧养老新体验

吉利银河星耀7正式登场：MAX四驱版来袭，售价10.88万起性能强劲

北京养老服务再升级！民政局携手高德上线养老地图，一键导航享便捷服务

看广告赚钱靠谱吗？实测5款软件分享，教你如何用零碎时间赚零花钱

新款吉利星愿纯电小车5月28日登场新增实用功能续航升级

北汽极狐贝塔S3上市即热销，预售订单破3万，年轻用户成主力军

热门内容

本栏最新

乡村旅游“小而美”新业态崛起：从打卡到沉浸，科技文化赋能再升级

日系车“心脏”中国造：日本供应链式微，全球汽车产业格局生变

看广告赚钱靠谱吗？实测5款软件分享，教你如何用零碎时间赚零花钱

极狐贝塔S3上市：5.98万起享20万级体验，换电快空间大成家庭优选

阿里云峰会释放关键信号：Agent为核心，云与AI融合开启新篇章

AI赋能小微企业：一人借力AI工具，解锁多岗运营新效率密码

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.