随着智能体应用OpenClaw的爆火,如何选择适配的大模型成为开发者关注的焦点。近日,一个名为PinchBench的评测榜单引发行业热议,该榜单专门针对智能体框架设计,从任务完成率、运行速度和推理成本三个维度评估全球主流大模型的性能表现,为开发者提供重要参考。
与传统大模型评测不同,PinchBench聚焦智能体在实际工作流中的执行能力。其测试场景涵盖23个真实任务,包括资料查询与整理、邮件撰写、报告生成、API调用等复杂操作。这种设计使得评测结果更贴近实际应用需求,而非单纯的知识问答或数学推理能力。
在评测机制上,PinchBench采用自动化检查与大模型评审相结合的方式。对于可量化任务,系统通过预设脚本验证操作结果;对于主观性较强的任务,则由另一个大模型担任"评委"评估输出质量。这种混合评测模式既保证了客观性,又能处理复杂场景下的评估需求。
最新榜单显示,中国大模型在多个维度表现亮眼。成功率方面,谷歌Gemini 3 Flash以95.1%的完成率位居榜首,但紧随其后的MiniMax M2.1和Kimi K2.5均来自中国,成功率分别达到93.6%和93.4%。值得注意的是,MiniMax尚未派出最新版本M2.5参赛,该模型在速度测试中已超越Gemini和Llama等对手,端到端运行时间缩短至22.8分钟。
价格维度成为国产模型的短板。OpenAI的GPT-5-nano以每百万tokens输入0.05美元、输出0.40美元的价格领跑性价比榜单,而国产模型中最具竞争力的MiniMax M2.1输入价格约为0.3美元,输出价格达1.2美元,成本差距明显。不过在成功率与价格的平衡点上,仍有4个中国模型进入推荐榜单。
榜单背后的评测工具由创业团队Kilo AI开发。该团队曾推出编程工具Kilo Code,其智能体平台KiloClaw与PinchBench同步发布。创始人透露,评测工具的设计初衷是解决智能体开发中的模型选择难题,特别关注模型完成整件事的能力,而非单一技能表现。
这种评测导向带来有趣发现:规模更大的模型未必占据优势。部分经过智能体优化的中小模型,在任务完成效率和推理速度上反而超越传统大模型。这种现象正在改变开发者对模型选型的认知,也解释了为何PinchBench在技术社区引发广泛讨论。
目前,PinchBench已实现完全开源,开发者既可以直接使用现有评测结果,也能自行添加测试任务或运行评测。这种开放模式为模型评估提供了新的可能性,或许将推动智能体开发领域形成新的技术标准。
开源地址:https://github.com/pinchbench/skill
评测官网:https://pinchbench.com/about







