滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

百度伐谋Agent 2.0二度登顶MLE-Bench，智能体工程化能力再获权威认证

时间：2026-04-14 20:01:32 来源：天脉网编辑：快讯 IP：北京 发表评论无障碍通道

在机器学习工程领域，百度智能云推出的企业级算法自主优化智能体“伐谋Agent 2.0”再次成为焦点。这款产品近日成功登顶机器学习工程权威基准测试MLE-Bench，并刷新了该榜单的SOTA（State-of-the-Art）成绩。这是继去年10月首次夺冠后，伐谋Agent 2.0第二次在该榜单中拔得头筹。

MLE-Bench由OpenAI主导设立，包含75个源自Kaggle真实竞赛的工程任务。这些任务全面覆盖模型训练、数据处理、实验管理等AI智能体全流程作业能力，旨在评估其模拟人类机器学习工程师解决实际问题的综合素养。与常规测试不同，MLE-Bench的考核重点不在于大模型的对话或推理水平，而是通过实际工程任务检验智能体的独立作业能力。每道题目需运行三次取平均分，单次完整提交的算力成本高达数万美元。

在本次测试中，伐谋Agent 2.0在“高难度”任务中的表现尤为亮眼。在统一运行标准下，其综合胜率显著领先于搭载Claude-Opus-4.6等主流大模型的同类智能体。具体来看，在15道最难题目中，伐谋Agent 2.0一举拿下9项第一。这些高难度任务往往对应现实中数字化基础薄弱、数据质量参差的场景，例如历史遗留的脏数据、残缺的业务记录、跨系统异构对接等，具有极高的工程参考价值。

从产品技术层面分析，伐谋Agent 2.0的优异表现得益于其在多个关键领域的系统优化。首先，增强的演化策略支持智能体在多个路径上并行探索，并能够适时回溯调整，从而提升问题解决的效率与准确性。其次，长程记忆机制的引入帮助智能体在长链条任务中保持逻辑一致性，避免因任务复杂度增加而出现逻辑断裂。全栈AI云基础设施的优化进一步提升了算法迭代效率，为智能体的高性能运行提供了坚实保障。

自上线以来，伐谋Agent 2.0已服务数千家企业，覆盖零售、金融、制造、能源、交通等多个领域。以汽车制造行业为例，伐谋Agent 2.0与阿尔特太乙合作，将风阻验证时间从10小时压缩至数分钟，整车研发周期平均缩短25%。这一成果不仅体现了伐谋Agent 2.0在实际工程中的高效性，也为其在更多领域的推广应用奠定了基础。

MLE-Bench的竞争格局并非一成不变。今年2月，创业公司Disarray提交了一个高分成绩，随后UCSD团队的AIBuildAI也曾短暂占据榜首。然而，百度伐谋Agent 2.0在这一轮动态排名中最终脱颖而出，再次登顶。这一结果不仅反映了该领域技术迭代的快速与激烈，也凸显了百度在机器学习工程领域的持续创新能力。

参与本次测评的智能体还包括搭载OpenAI o1、Claude等模型的方案。各家产品在数据处理效率、长任务稳定性等维度上各有优劣，形成了多元化的竞争态势。例如，某些智能体在数据处理效率上表现突出，而另一些则在长任务稳定性方面更具优势。这种多元化的竞争格局有助于推动整个领域的技术进步。

据悉，伐谋Agent 2.0的正式版本将于今年5月的Create 2026百度AI开发者大会上发布。与此同时，百度还开源了Famou for Science项目。该项目基于多智能体协同模式构建虚拟科研团队，支持长线程科研任务的自动化推进，为科研领域提供了新的解决方案。

随着智能体在工程化基准测试中屡次刷新纪录，一个现实问题也随之浮现：从榜单高分到大规模产业落地，中间还需要跨越哪些门槛？对于企业而言，稳定的成本收益比和可解释的工程回报，或许是最终评判智能体价值的关键标准。如何在技术突破与实际应用之间找到平衡点，将是未来智能体发展的重要方向。

更多>同类资讯

小米14系列或迎电池升级服务，OV荣耀测试超高刷屏幕新趋势

今年4月下旬开始，小米13系列3款机型全系上线了电池升级服务，可以在官方服务升级更大容量的电池，现据最新消息，小米14系列也将加入电池升级服务。据爆料，小米后续将会有更多机型支持换电服务，除了此前已经上线过…

06-14

小米老机型换电池服务或来袭，多款新机蓄势待发满足多元需求

近日，博主@数码闲聊站的一份消息中显示：“小米14系列最近重新备案入网了，估计是增大电池的验证机，后面可能也会开放换新电池服务，不想换机的老用户狂喜”。同时这份消息中还提到“小米后续将会有更多机型支持换电服…

06-14

智能电动汽车进入挑战期，车企高管预警：未来五年需应对多重考验

芯片的涨价与自研之争，折射出一个更深层的追问：当供应链的波动成为常态，当技术收敛的倒计时已经启动，中国汽车究竟要以怎样的姿态奔向下一个十年？质量和可靠性，决定了中国汽车在国内决赛中能走多远，更决定了在国际赛道…

06-14

工信部新一批新车来袭，设计“怪”出天际，车企差异化之路何去何从？

然后脖子哥的同事们还发现了一个魔鬼细节，那就是G9因为有了备胎所以把倒车影像跟固态激光雷达一起做了个总成，放在了后杠上。但很有意思的是，大汉的动力水平其实并没有汉L那么彪悍，纯电四驱版本的功率“仅有”570k…

06-14

Meta全新Navigator UI全面推送至Quest系列头显界面优化与功能整合待完善

06-14

阿里巴巴辟谣“周靖人辞职” 详解其新职务与AI领域战略部署

06-14

小米MIX Fold 5阔折叠手机将至：首发澎湃OS4，AI赋能徕卡旗舰新体验

06-14

华硕a豆便携蓝牙音箱PO102上市：小巧便携IP67防护，仅售139元

06-14

阿里巴巴辟谣“周靖人离职”传闻：相关消息不属实

06-14

聚焦消费新趋势：专家共话“三新”消费激活增量与产业升级新路径

06-14

小马智行第七代Robotaxi重庆车展首秀成本下探营收大增引关注

06-14

富国银行报告：亚马逊AWS或深化合作，采购高通AI200降推理成本

06-14

当情感缺口被AI填补：3800台机器人伴侣预售背后的人性困境与时代隐喻

但这件事最让我不舒服的，不是机器人本身，是它出现的时机。我觉得这就是问题所在了：当人与人之间的关系"性价比"越来越低的时候，人与机器的关系就变成了一门生意。我不觉得这些买机器人伴侣的人是奇怪的或者可怜的…

06-14

小米工程师再谈大模型：盼回归技术本质，让赛道成研发人员净土

06-14

捷达车展“来电”转型，技术产品双驱动开启电动化新征程

06-14

点击查看更多 +

全站最新

HDC 2026启幕：HarmonyOS 7 Beta发布，鸿蒙生态驶向万物智联新蓝海

当情感缺口被AI填补：3800台机器人伴侣预售背后的人性困境与时代隐喻

捷达车展“来电”转型，技术产品双驱动开启电动化新征程

理想汽车智源大会亮剑：自研马赫M100芯片破解AI推理难题性能跃升

霓星科技华南展秀实力：以「进化系AI」开启两轮车智能新体验

功夫佛山邂逅腾势闪充科技第二代腾势D9与N9佛山上市品鉴会完美收官

热门内容

本栏最新

智能电动汽车进入挑战期，车企高管预警：未来五年需应对多重考验

工信部新一批新车来袭，设计“怪”出天际，车企差异化之路何去何从？

当情感缺口被AI填补：3800台机器人伴侣预售背后的人性困境与时代隐喻

捷达车展“来电”转型，技术产品双驱动开启电动化新征程

燃油车价格体系崩塌销量锐减，新能源崛起，中国车市迎历史性跨越

5月乘用车销量揭晓：吉利星愿领跑，纯电车霸榜，中大型SUV竞争白热化

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.