滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

AI智能体开发“偏科”严重：编程领域扎堆，多数职业领域成“被遗忘的角落”

时间：2026-03-08 17:04:27 来源：ITBEAR编辑：快讯 IP：北京 发表评论无障碍通道

卡内基梅隆大学与斯坦福大学联合开展的一项研究显示，当前人工智能智能体的开发方向存在显著偏差，其应用场景过度集中于编程领域，而覆盖其他职业的比例严重不足。研究人员通过对比美国O*NET职业数据库与43个主流智能体基准测试中的72342项任务，发现计算机与数学类职业仅占美国就业人口的7.6%，却占据了智能体开发任务的绝对主导地位。

在数字化程度较高的职业领域，这种失衡尤为突出。管理类职业的数字化率达88%，但在智能体基准测试中的任务占比仅1.4%；法律行业数字化率70%，对应占比0.3%；建筑与工程领域数字化率71%，占比同样不足1%。研究人员指出，这些领域虽然存在目标模糊、成果验证周期长等技术挑战，但恰恰是AI智能体能够快速提升生产力的方向。从经济价值维度分析，管理、法律等高薪领域的基准测试覆盖率与其创造的资本价值严重不匹配，而个人服务、护理等劳动密集型低薪领域则几乎被完全忽视。

技能维度的对比数据进一步印证了这种偏差。研究团队将职业技能划分为信息获取、思维处理、人际互动和工作成果四大类，发现现实职业中这四类技能需求分布相对均衡。然而智能体基准测试中，超过95%的任务集中在"信息获取"和"计算机操作"两类技能，而涉及大量现实工作的"人际互动"类技能几乎未被覆盖。这种选择倾向主要源于方法论便利性——任务指令编写和结果验证难度较低的领域更容易获得开发资源。

在评估智能体实际能力时，研究团队建立了量化自主性指标体系，将智能体在既定成功率下可处理的任务复杂度作为核心参数，复杂度通过分层工作流的步骤数衡量。测试结果显示，即使在软件开发这个覆盖最充分的领域，当任务复杂度提升时，智能体成功率仍会出现断崖式下降。具体来看，智能体在独立思维处理和成果产出方面表现较好，但在信息检索和人机协作等基础环节表现欠佳，这在中等复杂度任务中尤为明显。

对比实验数据显示，在少数可进行跨框架测试的基准中，OpenHands框架的表现优于SWE-agent，Claude模型的表现优于GPT系列，这种差距在中等复杂度任务中达到峰值。不过研究人员强调，这些结论存在局限性，不同复杂度级别的表现差异可能很大。他们呼吁智能体开发者公开更多运行轨迹数据，以便建立更系统的评估体系。

针对当前问题，研究团队提出三项改进建议：一是优先开发覆盖管理、法律等数字化高薪领域或跨领域综合基准；二是提升基准测试的真实性和复杂性，人工编写的任务设计应优于自动生成；三是建立精细化评估机制，通过提取人类工作流设置中间检查点，精准定位智能体失效环节。研究团队已开放相关框架和工具，帮助基准设计者识别覆盖缺口，指导开发者明确改进方向，并协助用户选择适合的智能体自主等级。

第三方数据印证了这种开发偏差的现实影响。Anthropic公司对数百万次人机交互的分析显示，软件开发类工具调用占公共API中智能体应用的近50%，而其他行业的应用比例均不足5%。加州大学伯克利分校2025年末的研究也发现，企业目前主要将智能体作为简单、受控的工具使用，系统可靠性仍是制约自主操作的主要障碍。这种应用现状与当前基准测试的覆盖范围形成闭环，凸显了行业转型的迫切性。

更多>同类资讯

手机变遥控器，OpenAI扩展Codex远程控制支持Win10/Win11

05-30

OpenAI升级GPT-5.5 Instant模型，AI回复更自然、易读

05-30

大湾区车展启幕，尚界携Z7系列与焕新H5，引领出行新风潮

05-30

麒麟100智联操作系统亮相天津博览会：双系统无缝协同开启全场景智能新体验

05-30

2026世界智能产业博览会：40余款AI大模型落地产业开启智能应用新篇章

05-30

2026世界智能产业博览会亮点纷呈麒麟软件、蚂蚁科技等发布多项前沿成果

29日，在2026年世界智能产业博览会上，。麒麟软件的工业操作系统，专门服务能源电力等领域，主要用于生产线管控，已经在国家能源投资集团、华能、华电等头部企业使用。这次发布的新版操作系统，内置了人工智能能力…

05-30

英伟达携手高校发布LocateAnything模型，为AI检测带来高速高精度新方案

05-30

Gamma-World突破单智能体局限：让多智能体世界模型走向通用化新阶段

05-30

OpenAI更新GPT-5.5 Instant版本：减少幻觉提升推理，回复更自然清晰

05-30

2026世界智能产业博览会：40余款AI大模型从展示走向产业应用新阶段

05-30

MiniMax5月29日签约辅导协议正式踏上A股IPO新征程

国内人工智能领域迎来新动态，知名企业MiniMax正式踏上A股上市征程。5月29日，该公司与中信证券达成合作，双方签署了辅导协议，标志着其A股IPO进程正式拉开帷幕。据了解，MiniMax在人工智能领域深耕多年，凭借先进的技术和创新的业务模式，在市场上占据了一席之地。此前，该公司已在港股市场成功上市，积累了丰富的资本市场经验，也为此次冲击A股市场奠定了坚实基础。

05-30

Anthropic七位联创齐登富豪榜估值超OpenAI AI财富效应再引关注

05-30

DeepSeek“重生”“修改”受限引热议，算力扩容能否解用户之急？

05-30

科技赋能文旅新体验：黄山智游黄山景，泰山外骨骼助登峰

本土大模型在场景适配层面拥有明显优势，能够结合黄山本地的文旅特色、地域文化不断优化服务内容，针对山岳景区特有的天气变化、山道通行规则、安全提示等内容进行深度打磨，让智能服务不再是通用模板的套用，而是真正扎根于…

05-30

宇树科技亚洲首店落户南京西路商圈，主力机器人亮相，邀消费者沉浸式体验未来科技

本周日，宇树科技具身智能体验馆亚洲首店，将在南京西路商圈久光百货二楼亮相开业，记者今天到店先睹：作为宇树科技面向大众消费市场的重要窗口，门店将集中展示并销售G1人形机器人、R1人形机器人、Go2 机器狗等…

05-30

点击查看更多 +

全站最新

37万起售！全新猛士M817携“五新”实力来袭，解锁5+2+X多元出行新体验

追求省心耐用还省油？这三款合资油车配置丰富安全性佳，值得一看！

2026世界智能产业博览会亮点纷呈麒麟软件、蚂蚁科技等发布多项前沿成果

阿里字节Token激战正酣：AI商业化赛道谁能率先突围成霸主？

2026粤港澳车展极氪“出圈”：高端市场领跑，引领中国汽车品牌崛起

国产车稳扎L3与马斯克激进押注L4：自动驾驶双路径下的未来之争

热门内容

本栏最新

2026世界智能产业博览会亮点纷呈麒麟软件、蚂蚁科技等发布多项前沿成果

比亚迪璇玑A3芯片领航，全系车型可选装高阶智驾，开启安全出行新篇章

10万级纯电SUV新标杆！MG 4X硬核配置拉满重新定义性价比天花板

领克10与领克10+正式登场限时优惠开启续航强劲智能配置丰富

10万级纯电SUV新标杆！MG 4X半固态电池配后驱五连杆杀入市场

雷神科技发力AI端侧算力赛道，以全场景布局开启智算新时代

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.