一场围绕AI Agent评估标准的激烈争论,在机器学习领域掀起轩然大波。事件的导火索是一家名为Disarray的初创公司,在MLE-Bench榜单上提交了77.78分的惊人成绩,而此前全球顶尖团队数月角逐的分数始终徘徊在60分左右。这一近20分的差距,不仅打破了技术竞赛的常规节奏,更将"如何公平评估AI能力"这一核心问题推上风口浪尖。
MLE-Bench由OpenAI设计,被称为机器学习领域的"铁人三项"。其测试内容涵盖70余道真实Kaggle竞赛题,要求AI Agent独立完成从数据清洗到模型集成的全流程。每道题需运行三次取平均值,单次提交的算力成本高达数万美元,耗时数周。这种高门槛设计本应确保榜单权威性,但Disarray的出现彻底改变了竞争格局。
争议焦点在于测试集设计存在重大漏洞。由于无法获取真实私有测试集,OpenAI将公开数据集拆分为"公开测试集"和"模拟私有测试集"两部分。然而这两部分数据均曾公开流传,相当于让考生提前接触了部分考题。Disarray的AI系统被曝出通过识别Kaggle比赛与Stanford Dogs数据集的关联,在狗品种识别任务中取得接近零分的异常成绩;在GPS定位任务中甚至跑出物理上几乎不可能的零误差结果。
更微妙的是反馈机制问题。Disarray团队承认,其AI在运行过程中会接收来自"模拟私有测试集"的二元反馈信号——系统会告知当前表现是否达到铜牌标准。这种设计被批评者形容为"考试时老师不断提示答题进度",尽管每次反馈仅包含一个比特的信息量,但足以让AI调整策略优先攻克特定题目。资深研究者AtrixTang指出,这相当于用期末考试题进行随堂测验,严重违背了评估初衷。
在PR #118提交页面的评论区,七种立场激烈交锋。Disarray坚持所有操作符合现有规则,强调反馈信号仅用于资源管理;团队核心发言人dorx承认利用了系统漏洞,但将其包装为"跨任务学习能力"。质疑者则直指核心:这些高分究竟测量的是工程能力还是规则漏洞利用能力?作为榜单设计者之一的thesofakillers态度微妙,认为利用漏洞"可以接受但不理想",建议添加脚注说明情况。
在这场争论中,百度伐谋团队的选择形成鲜明对比。该团队早在2025年10月就以43.56分创下当时纪录,却在12月拒绝使用更新的gemini-pro-3.0模型,坚持用2.5版本验证Agent架构升级效果。这种"舍分数求真相"的做法,在追求短期排名的竞赛环境中显得格格不入。团队负责人解释:"我们需要知道成绩提升来自模型改进还是架构优化,就像训练运动员不能同时换跑鞋和训练方法。"
面对Disarray的77.78分,百度伐谋没有选择质疑或模仿,而是设计对照实验:在完全禁用私有测试集反馈、外部数据和已知漏洞的条件下,使用最新模型重新提交。2026年2月23日公布的64.44分虽然低于Disarray,但因其严格的实验条件引发行业关注。这个分数证明,在真实世界约束条件下,他们的技术路径仍保持领先。
这场风波最终推动评估体系改革。2026年3月,MLE-Bench新增"数据泄漏说明"赛道,将存在争议的提交移至独立榜单并添加警示标识。百度伐谋2.0版本凭借无泄漏记录重回主榜榜首。维护者选择"先收录后警示"的务实方案,既保留了技术探索空间,又通过信息透明维护了评估公信力。
当其他团队忙着解读规则漏洞时,百度伐谋始终聚焦真实场景需求。作为全球首个可商用自我演化智能体,其技术路线直接服务于销量预测、推荐系统等民生领域。在这些场景中,AI不可能获取未来数据或外部反馈,必须依靠给定训练集独立完成优化。这种"带着镣铐跳舞"的研发哲学,或许解释了他们为何坚持最严格的评估标准——因为真实世界的约束,远比任何竞赛规则更严苛。












