滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

AI智能体开发“偏科”严重：编程领域受宠，多数职业领域遭冷落

时间：2026-03-08 18:41:38 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

卡内基梅隆大学与斯坦福大学联合开展的一项研究指出，当前人工智能智能体的开发方向存在显著偏差，其应用场景过度集中于编程领域，对其他行业覆盖严重不足。研究人员通过对比43个智能体基准测试与美国劳动力市场数据发现，现有开发模式仅覆盖了7.6%的就业岗位，而管理、法律等数字化程度较高的领域反而被边缘化。

该研究依托美国劳工部O*NET数据库，将72342项测试任务映射至1016种职业类别。数据显示，管理类工作数字化率达88%，但在基准测试中仅占1.4%；法律行业数字化率70%，占比不足0.3%；建筑与工程领域数字化率71%，占比同样只有0.7%。这些领域虽面临目标模糊、成果验证周期长等技术挑战，但研究人员认为其具备短期提升生产力的潜力。

从经济价值维度分析，管理、法律等高收入行业在基准测试中的占比与其创造的资本价值严重失衡。与此同时，个人服务、护理等劳动密集型低薪行业也几乎未被纳入开发视野。研究人员构建的技能分类体系显示，现实工作需要信息获取、思维处理、人际互动、工作成果四类技能的均衡运用，但智能体测试仅聚焦前两类，覆盖就业市场不足5%，人际互动类任务则鲜有涉及。

这种偏差源于开发方法的技术便利性。研究人员指出，易于编写指令和验证结果的领域获得过度关注，导致资源分配偏离社会经济效益最大化的方向。OpenAI的GDPval基准测试因覆盖32个专业领域被树为正面案例，该测试专门设计用于评估智能体对知识工作的实际影响，尽管规模较小但领域覆盖广泛。

在自主性评估方面，研究团队提出量化指标：以分层工作流步骤数衡量任务复杂度，结合成功率计算智能体自主处理能力。测试显示，即便在软件开发领域，任务复杂度提升也会导致成功率骤降。智能体在独立思维处理和成果产出方面表现较好，但在信息检索和人机协作等基础环节仍存在明显短板。

对比实验表明，OpenHands框架在中等复杂度任务中优于SWE-agent，Claude模型表现优于GPT，但研究人员强调这些结论不适用于所有复杂度级别。他们呼吁开发方公开智能体运行轨迹数据，以便开展系统性对比分析。针对基准测试设计，研究提出三大原则：优先覆盖数字化程度高但开发不足的领域；任务设计需反映真实工作场景的复杂性；建立中间检查点实现精细化评估。

现实应用数据印证了研究结论。Anthropic公司对数百万次人机交互的分析显示，软件开发占智能体工具调用的近50%，其他行业占比均不足5%。加州大学伯克利分校的研究也指出，企业目前仅将智能体作为简单受控工具使用，系统可靠性仍是制约自主操作的主要障碍。该研究提供的分析框架和工具包，可帮助开发者识别覆盖缺口并优化改进方向。

更多>同类资讯

广汽丰田铂智3X一周年OTA：以老车主免费升级开启合资智电转型新路径

03-28

AI赋能新能源：从技术融合到场景重塑的智能化跃迁之路

03-28

Anthropic最强模型“Capybara”意外曝光，性能跃升却伴网络安全隐忧

LayerX Security资深AI安全研究员Roy Paz与剑桥大学网络安全研究员Alexandre Pauwels发现，Anthropic用于发布官方博客的外部CMS工具存在配置缺陷：该系统默认将上传…

03-28

四川内江举办人工智能盛会：发布供需清单，签约项目注入发展新动能

此次发布的应用场景需求清单有60项，覆盖了全省14个地市、15个“人工智能+”领域。作为四川省人工智能重点产业链协同发展地，近年来四川内江聚焦太空计算、数据标注等领域，精准布局、持续发力，招引培育并济科技、…

03-28

具身智能觉醒，AI赋能制造业，共探物理AI时代精密制造新路径

与此同期，钛媒体也将联合ITES深圳工业展、工创联，共同打造一场主题为“具身觉醒，智造跃迁” 的高端产业峰会。这既是一场关于“具身智能”如何从概念觉醒、走向产业化的深度探讨，也是一次关于AI技术如何驱动整个…

03-28

Wi-Fi 9时代来临：聚焦实际性能，引领数字连接新未来

下一代 AR 和 VR 协作工具、云游戏平台和实时 3D 环境依赖于能够提供每台设备超过 100Mbps 的极高速度、持续的低于 5ms的超低延迟和稳定的性能的无线网络，而这正是 Wi-Fi 9 应该设计…

03-27

AI浪潮下旧手机成“香饽饽”，回收价飙升，它究竟去哪儿了？

此轮旧手机回收价格上涨，主要原因在于AI浪潮带动整体存储芯片产能紧张，消费级存储供需失衡、价格走高；芯片新增产能扩产周期长、成本高，下游厂商转而大量回收旧手机拆机芯片补缺口，推高了旧机回收价。在回收手机时，…

03-27

AI服务器机箱选型攻略：广州市宝承电子科技，满足多场景算力需求

选择AI服务器机箱厂家时需重点考量：1.产品适配性：机箱规格（如1U/2U）是否匹配计算密度需求，散热结构能否支持GPU/TPU等高功耗组件；2. 实力稳定性：生产规模与供应链管理能力是否保障大批量交付…

03-27

跳出芯片内卷！中兴AI超节点重构智算底座，开启高效算力新篇

03-27

毕马威柳晓光：AI浪潮下企业数字化转型迎关键转折需把握两大抓手

03-27

三星半导体CFMS 2026亮剑：以创新存储方案赋能物理AI全场景发展

03-27

国产AI新势力崛起！天工AI全模态突破后，世界模型生态战略正式登场

03-27

AI赋能电力新篇章：2026华夏双碳能源发展大会共绘绿色转型蓝图

03-27

昆仑万维中关村论坛放大招：三款王炸模型齐发，2026 AGI战略路径明晰

03-27

数字技术赋能影像创作：“印象新疆”短视频大赛AI组佳作绽放新魅力

03-27

点击查看更多 +

全站最新

京东超市携手蓝月亮深化合作：以创新驱动共筑清洁洗护新生态三年剑指50亿

字节跳动Dreamina Seedance 2.0登陆CapCut，助力创作者解锁音视频创作新体验

高德扫街榜推出"地道澳门味"榜单，助力大湾区文旅创新建设

一图看懂易大宗(1733.HK)2025年年度业绩亮点

ETF风向标 | 创新药板块爆发，科创创新药ETF涨6%，资金强势抢筹债券ETF，科创债ETF、短融ETF单日“吸金”39亿

原油涨价，这个板块等来了春天？

热门内容

本栏最新

众智FlagOS 2.0重磅登场：八大技术突破，携手生态伙伴共筑智能体时代新基座

于柯鑫引领沃尔沃“超混”变革：以纯粹工程铸就安全智能全能之选

奥迪电动化新篇章：从E5到E7X，AUDI如何重塑德系豪华未来？

潍柴动力2025年业绩飘红：电力能源与商用车双轮驱动增长

智己LS8开启预售！25.98万起享豪华配置增程动力+四轮转向亮点多

潍柴动力2025年业绩亮眼：电力能源与商用车双增长大缸径发动机成亮点

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.