在机器学习工程领域,百度智能云推出的企业级算法自主优化智能体“伐谋Agent 2.0”再次成为焦点。这款产品近日成功登顶机器学习工程权威基准测试MLE-Bench,并刷新了该榜单的SOTA(State-of-the-Art)成绩。这是继去年10月首次夺冠后,伐谋Agent 2.0第二次在该榜单中拔得头筹。
MLE-Bench由OpenAI主导设立,包含75个源自Kaggle真实竞赛的工程任务。这些任务全面覆盖模型训练、数据处理、实验管理等AI智能体全流程作业能力,旨在评估其模拟人类机器学习工程师解决实际问题的综合素养。与常规测试不同,MLE-Bench的考核重点不在于大模型的对话或推理水平,而是通过实际工程任务检验智能体的独立作业能力。每道题目需运行三次取平均分,单次完整提交的算力成本高达数万美元。
在本次测试中,伐谋Agent 2.0在“高难度”任务中的表现尤为亮眼。在统一运行标准下,其综合胜率显著领先于搭载Claude-Opus-4.6等主流大模型的同类智能体。具体来看,在15道最难题目中,伐谋Agent 2.0一举拿下9项第一。这些高难度任务往往对应现实中数字化基础薄弱、数据质量参差的场景,例如历史遗留的脏数据、残缺的业务记录、跨系统异构对接等,具有极高的工程参考价值。
从产品技术层面分析,伐谋Agent 2.0的优异表现得益于其在多个关键领域的系统优化。首先,增强的演化策略支持智能体在多个路径上并行探索,并能够适时回溯调整,从而提升问题解决的效率与准确性。其次,长程记忆机制的引入帮助智能体在长链条任务中保持逻辑一致性,避免因任务复杂度增加而出现逻辑断裂。全栈AI云基础设施的优化进一步提升了算法迭代效率,为智能体的高性能运行提供了坚实保障。
自上线以来,伐谋Agent 2.0已服务数千家企业,覆盖零售、金融、制造、能源、交通等多个领域。以汽车制造行业为例,伐谋Agent 2.0与阿尔特太乙合作,将风阻验证时间从10小时压缩至数分钟,整车研发周期平均缩短25%。这一成果不仅体现了伐谋Agent 2.0在实际工程中的高效性,也为其在更多领域的推广应用奠定了基础。
MLE-Bench的竞争格局并非一成不变。今年2月,创业公司Disarray提交了一个高分成绩,随后UCSD团队的AIBuildAI也曾短暂占据榜首。然而,百度伐谋Agent 2.0在这一轮动态排名中最终脱颖而出,再次登顶。这一结果不仅反映了该领域技术迭代的快速与激烈,也凸显了百度在机器学习工程领域的持续创新能力。
参与本次测评的智能体还包括搭载OpenAI o1、Claude等模型的方案。各家产品在数据处理效率、长任务稳定性等维度上各有优劣,形成了多元化的竞争态势。例如,某些智能体在数据处理效率上表现突出,而另一些则在长任务稳定性方面更具优势。这种多元化的竞争格局有助于推动整个领域的技术进步。
据悉,伐谋Agent 2.0的正式版本将于今年5月的Create 2026百度AI开发者大会上发布。与此同时,百度还开源了Famou for Science项目。该项目基于多智能体协同模式构建虚拟科研团队,支持长线程科研任务的自动化推进,为科研领域提供了新的解决方案。
随着智能体在工程化基准测试中屡次刷新纪录,一个现实问题也随之浮现:从榜单高分到大规模产业落地,中间还需要跨越哪些门槛?对于企业而言,稳定的成本收益比和可解释的工程回报,或许是最终评判智能体价值的关键标准。如何在技术突破与实际应用之间找到平衡点,将是未来智能体发展的重要方向。












