滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

从“看答案”到“看行动”：Agent评测如何用“活”的基准贴近现实需求

时间：2026-05-11 17:29:22 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

当前，AI Agent正逐步展现出作为“数字员工”的潜力，它们能够调用API、查询数据库、撰写邮件、修改代码、安排日程以及生成报表。然而，评估这些Agent的真实能力时，真正的挑战不在于它们能否“说话”，而在于它们能否真正完成任务，以及所使用的评估任务是否反映了现实世界中最重要的工作流程。针对这些问题，Claw-eval和Claw-eval-Live两个评估框架应运而生，前者关注任务完成度的真实性，后者则确保评估任务与现实需求保持同步。

在Claw-eval出现之前，主流的Agent评估方法主要依赖于观察最终结果来判断任务是否完成。例如，文件是否创建成功、测试是否通过、答案是否匹配等。然而，这种方法存在两个致命缺陷。首先，它只关注结果，而忽视了执行过程。这意味着，即使Agent生成了一份看似完美的报告，也可能并未真正查询正确的数据源或调用正确的API，而是仅仅“编造”了一个答案。其次，这种方法难以反映真实部署环境的要求，如安全性、稳健性以及在API超时或服务报错情况下的处理能力。

Claw-eval通过引入可审计的执行过程证据，解决了上述问题。该框架包含300道人工验证任务，覆盖了通用服务编排、多模态感知与生成以及多轮专业对话三大领域，并定义了2159个可独立验证的评分细则。评估过程在隔离环境中进行，分为设置、执行和判断三个阶段，确保Agent在运行时无法接触到评分脚本和参考答案。评估依据不仅包括最终输出，还包括执行轨迹、服务端审计日志以及执行后的环境快照三条独立证据链。

实验表明，如果仅依赖最终结果进行评估，将会系统性地高估Agent的能力。例如，一个普通的LLM评估器在缺少服务端审计日志和环境快照的情况下，仍然会漏掉44%的安全违规和13%的稳健性问题。Claw-eval还发现，错误注入会显著降低Agent的可靠性，而多模态和多轮对话能力则没有统一的领先者。这些发现强调了评估Agent时关注执行过程的重要性。

然而，即使评估方法足够可靠，如果评估任务本身已经偏离了现实需求，那么评估结果也可能失去意义。这正是Claw-eval-Live试图解决的问题。与传统的固定任务集合不同，Claw-eval-Live通过两层分离的设计，确保每次发布都能反映当前真实世界的工作流程需求。

Claw-eval-Live的信号层从公开的工作流程需求信号中获取信息，如ClawHub Top-500热门技能等，以决定每次发布应关注哪些工作流程。而发布层则提供固定的、带时间戳的评估快照，包括任务定义、执行环境、数据夹具和评分脚本等，确保模型之间的稳定比较和学术复现性。两层之间通过一条五阶段流水线连接，包括信号采集、模式聚类、家族加权、种子扩展与筛选以及区分度优化选取等步骤。

当前公开的Claw-eval-Live版本包含105道任务，覆盖22个任务家族和13个前沿模型。任务分为服务驱动的业务工作流和本地工作空间修复任务两大类。评估过程中，不仅关注数据检索的准确性、数据实体和数值的一致性，还验证必需的状态变更是否真正发生。只有在这些确定性检查无法覆盖的语义维度上，才引入结构化LLM评估器。

基于Claw-eval-Live的评估结果显示，当前前沿模型在真实工作流程自动化方面的表现仍然有限。没有任何模型能够突破70%的通过率，且榜首与末尾之间的差距达到22.9个百分点。值得注意的是，通过率相近的模型在完成度上可能存在显著差异。例如，MiMo V2 Pro、Kimi K2.5和Gemini 3.1 Pro三个模型的通过率均为53.3%，但它们的整体完成度从76.9%降至74.0%，表明这些模型并非完全不会做任务，而是经常“差一点做完”。

进一步分析发现，当前Agent的主要瓶颈并非终端操作或环境修复等硬核技术能力，而是在多个系统之间持续收集证据、正确关联记录并完成必要的写操作。例如，在HR、管理以及跨系统工作流程等业务任务上，模型的平均通过率普遍较低。相反，在Development/Terminal等任务上，强模型已经接近天花板水平。

Claw-eval-Live的排名与传统的聊天或写作评估排名并不一致。它更注重跨系统证据收集、正确的记录关联、行动闭环以及执行后状态完整性等方面。这意味着，即使一个模型能够写出极其流畅的总结，但如果它遗漏了必需的工具调用、关键证据或工作空间状态不正确，仍然无法获得高分。

从部署角度来看，成本同样是一个重要的考虑因素。根据估算的API成本差异显示，不同模型在完成相同任务时的成本差异巨大。例如，Claude Opus 4.6的准确率最高，但完成整个评估任务的估算API成本约为31.6美元；而GPT-5.4以约6.3美元的成本获得第二名，通过率仅低2.9个百分点。因此，在实际部署Agent时，除了考虑准确率外，还需要综合考虑具体工作流程家族上的准确率与成本之间的平衡。

更多>同类资讯

DeepSeek V4性价比拉满：百万token低至三毛，网友直呼“真香”

05-11

AI无人机反制系统功率MOSFET选型指南：解锁高密度与高响应电源管理新方案

05-11

自旋量子比特迁移新突破：实现量子纠缠与短距离隐形传态新进展

05-11

十年蝶变引领行业新篇：悦川新材2026以创新智造赋能绿色家居未来

05-11

微信4月更新亮点多：AI支付门槛降、贴图原图可发送、视频号功能再升级

05-11

蚕桑园里结情缘高新区青年交友活动暖人心

05-11

中国空间站“T”字变“十”字：二次扩建启幕，太空家园迈向新征程

05-11

天舟十号待发长七火箭推进剂补加发射场天气给力助升空

05-11

全球变暖让飞机颠簸增多？资深机长解读：颠簸不等于危险，安全带是关键

05-11

天舟十号启程赴“天宫”：近6.3吨物资为航天员乘组在轨生活“保驾护航”

05-11

天舟十号启航！“太空后勤官”多年升级，“装货送货”能力再上新台阶

05-11

天舟十号发射成功！载货能力强功能多样助力空间站运营新征程

05-11

全球气候变暖飞机颠簸增多？专家：气候与航路繁忙是主因，系好安全带可保安全

05-11

全球气候变暖致飞机颠簸增多？业内人士：原因多样，系好安全带保安全

05-11

天舟十号启程！“宇宙级快递”奔赴空间站，共赴星辰之约

05-11

点击查看更多 +

全站最新

百度AI价值重估：从昆仑芯布局到智能体矩阵，开启产业落地新征程

电动化浪潮中，北京现代与神龙汽车“转身”求变，前路挑战几何？

从冷清到爆火：2026北京车展见证中国汽车产业“换道超车”新起点

李想坦言初代理想L9有遗憾：底盘芯片电芯因技术受限未达预期

智驭天地硬核进阶一汽-大众全新揽巡媒体试驾圆满落幕

华为智驾赋能东风风行星海V6，技术普惠如何重塑家庭出行新体验？

热门内容

本栏最新

张雪机车两款车型存隐患：磁电机线束压板或断裂免费升级点检还延保

张雪机车召回部分500RR与500F 免费换压板点检还延保发动机质保

布加迪Tourbillon瑞典冰雪测试，1775马力超跑挑战极寒调校漂移动态

月薪3万“大厂高管”两周走人：小公司要的是能“打仗”的合伙人

万象系统赋能首衡集配：售后处理提速六倍，成本降低服务升级

兰博基尼Fenomeno敞篷版预告图亮相纪念63周年本周末首发限量登场

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.