当前,AI Agent正逐步展现出作为“数字员工”的潜力,它们能够调用API、查询数据库、撰写邮件、修改代码、安排日程以及生成报表。然而,评估这些Agent的真实能力时,真正的挑战不在于它们能否“说话”,而在于它们能否真正完成任务,以及所使用的评估任务是否反映了现实世界中最重要的工作流程。针对这些问题,Claw-eval和Claw-eval-Live两个评估框架应运而生,前者关注任务完成度的真实性,后者则确保评估任务与现实需求保持同步。
在Claw-eval出现之前,主流的Agent评估方法主要依赖于观察最终结果来判断任务是否完成。例如,文件是否创建成功、测试是否通过、答案是否匹配等。然而,这种方法存在两个致命缺陷。首先,它只关注结果,而忽视了执行过程。这意味着,即使Agent生成了一份看似完美的报告,也可能并未真正查询正确的数据源或调用正确的API,而是仅仅“编造”了一个答案。其次,这种方法难以反映真实部署环境的要求,如安全性、稳健性以及在API超时或服务报错情况下的处理能力。
Claw-eval通过引入可审计的执行过程证据,解决了上述问题。该框架包含300道人工验证任务,覆盖了通用服务编排、多模态感知与生成以及多轮专业对话三大领域,并定义了2159个可独立验证的评分细则。评估过程在隔离环境中进行,分为设置、执行和判断三个阶段,确保Agent在运行时无法接触到评分脚本和参考答案。评估依据不仅包括最终输出,还包括执行轨迹、服务端审计日志以及执行后的环境快照三条独立证据链。
实验表明,如果仅依赖最终结果进行评估,将会系统性地高估Agent的能力。例如,一个普通的LLM评估器在缺少服务端审计日志和环境快照的情况下,仍然会漏掉44%的安全违规和13%的稳健性问题。Claw-eval还发现,错误注入会显著降低Agent的可靠性,而多模态和多轮对话能力则没有统一的领先者。这些发现强调了评估Agent时关注执行过程的重要性。
然而,即使评估方法足够可靠,如果评估任务本身已经偏离了现实需求,那么评估结果也可能失去意义。这正是Claw-eval-Live试图解决的问题。与传统的固定任务集合不同,Claw-eval-Live通过两层分离的设计,确保每次发布都能反映当前真实世界的工作流程需求。
Claw-eval-Live的信号层从公开的工作流程需求信号中获取信息,如ClawHub Top-500热门技能等,以决定每次发布应关注哪些工作流程。而发布层则提供固定的、带时间戳的评估快照,包括任务定义、执行环境、数据夹具和评分脚本等,确保模型之间的稳定比较和学术复现性。两层之间通过一条五阶段流水线连接,包括信号采集、模式聚类、家族加权、种子扩展与筛选以及区分度优化选取等步骤。
当前公开的Claw-eval-Live版本包含105道任务,覆盖22个任务家族和13个前沿模型。任务分为服务驱动的业务工作流和本地工作空间修复任务两大类。评估过程中,不仅关注数据检索的准确性、数据实体和数值的一致性,还验证必需的状态变更是否真正发生。只有在这些确定性检查无法覆盖的语义维度上,才引入结构化LLM评估器。
基于Claw-eval-Live的评估结果显示,当前前沿模型在真实工作流程自动化方面的表现仍然有限。没有任何模型能够突破70%的通过率,且榜首与末尾之间的差距达到22.9个百分点。值得注意的是,通过率相近的模型在完成度上可能存在显著差异。例如,MiMo V2 Pro、Kimi K2.5和Gemini 3.1 Pro三个模型的通过率均为53.3%,但它们的整体完成度从76.9%降至74.0%,表明这些模型并非完全不会做任务,而是经常“差一点做完”。
进一步分析发现,当前Agent的主要瓶颈并非终端操作或环境修复等硬核技术能力,而是在多个系统之间持续收集证据、正确关联记录并完成必要的写操作。例如,在HR、管理以及跨系统工作流程等业务任务上,模型的平均通过率普遍较低。相反,在Development/Terminal等任务上,强模型已经接近天花板水平。
Claw-eval-Live的排名与传统的聊天或写作评估排名并不一致。它更注重跨系统证据收集、正确的记录关联、行动闭环以及执行后状态完整性等方面。这意味着,即使一个模型能够写出极其流畅的总结,但如果它遗漏了必需的工具调用、关键证据或工作空间状态不正确,仍然无法获得高分。
从部署角度来看,成本同样是一个重要的考虑因素。根据估算的API成本差异显示,不同模型在完成相同任务时的成本差异巨大。例如,Claude Opus 4.6的准确率最高,但完成整个评估任务的估算API成本约为31.6美元;而GPT-5.4以约6.3美元的成本获得第二名,通过率仅低2.9个百分点。因此,在实际部署Agent时,除了考虑准确率外,还需要综合考虑具体工作流程家族上的准确率与成本之间的平衡。











