卡内基梅隆大学与斯坦福大学联合开展的一项研究显示,当前人工智能智能体的开发方向存在显著偏差,其应用场景过度集中于编程领域,而覆盖其他职业的比例严重不足。研究人员通过对比美国O*NET职业数据库与43个主流智能体基准测试中的72342项任务,发现计算机与数学类职业仅占美国就业人口的7.6%,却占据了智能体开发任务的绝对主导地位。
在数字化程度较高的职业领域,这种失衡尤为突出。管理类职业的数字化率达88%,但在智能体基准测试中的任务占比仅1.4%;法律行业数字化率70%,对应占比0.3%;建筑与工程领域数字化率71%,占比同样不足1%。研究人员指出,这些领域虽然存在目标模糊、成果验证周期长等技术挑战,但恰恰是AI智能体能够快速提升生产力的方向。从经济价值维度分析,管理、法律等高薪领域的基准测试覆盖率与其创造的资本价值严重不匹配,而个人服务、护理等劳动密集型低薪领域则几乎被完全忽视。
技能维度的对比数据进一步印证了这种偏差。研究团队将职业技能划分为信息获取、思维处理、人际互动和工作成果四大类,发现现实职业中这四类技能需求分布相对均衡。然而智能体基准测试中,超过95%的任务集中在"信息获取"和"计算机操作"两类技能,而涉及大量现实工作的"人际互动"类技能几乎未被覆盖。这种选择倾向主要源于方法论便利性——任务指令编写和结果验证难度较低的领域更容易获得开发资源。
在评估智能体实际能力时,研究团队建立了量化自主性指标体系,将智能体在既定成功率下可处理的任务复杂度作为核心参数,复杂度通过分层工作流的步骤数衡量。测试结果显示,即使在软件开发这个覆盖最充分的领域,当任务复杂度提升时,智能体成功率仍会出现断崖式下降。具体来看,智能体在独立思维处理和成果产出方面表现较好,但在信息检索和人机协作等基础环节表现欠佳,这在中等复杂度任务中尤为明显。
对比实验数据显示,在少数可进行跨框架测试的基准中,OpenHands框架的表现优于SWE-agent,Claude模型的表现优于GPT系列,这种差距在中等复杂度任务中达到峰值。不过研究人员强调,这些结论存在局限性,不同复杂度级别的表现差异可能很大。他们呼吁智能体开发者公开更多运行轨迹数据,以便建立更系统的评估体系。
针对当前问题,研究团队提出三项改进建议:一是优先开发覆盖管理、法律等数字化高薪领域或跨领域综合基准;二是提升基准测试的真实性和复杂性,人工编写的任务设计应优于自动生成;三是建立精细化评估机制,通过提取人类工作流设置中间检查点,精准定位智能体失效环节。研究团队已开放相关框架和工具,帮助基准设计者识别覆盖缺口,指导开发者明确改进方向,并协助用户选择适合的智能体自主等级。
第三方数据印证了这种开发偏差的现实影响。Anthropic公司对数百万次人机交互的分析显示,软件开发类工具调用占公共API中智能体应用的近50%,而其他行业的应用比例均不足5%。加州大学伯克利分校2025年末的研究也发现,企业目前主要将智能体作为简单、受控的工具使用,系统可靠性仍是制约自主操作的主要障碍。这种应用现状与当前基准测试的覆盖范围形成闭环,凸显了行业转型的迫切性。











