滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

AI办公测试准确率未超25% 进步显著但胜任复杂工作仍需时日

时间：2026-01-26 14:44:38 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

训练数据公司Mercor近日发布的一份研究报告显示，当前主流人工智能模型在应对真实办公室任务时表现欠佳，最高准确率未能突破25%。这一结果引发了业界对AI能否快速替代人类知识工作者的讨论，研究指出，短期内AI尚难以胜任复杂的知识型工作。

测试结果显示，即便是市场领先的人工智能模型也难以达到理想水平。成绩最优的Gemini 3 Flash准确率仅为24%，紧随其后的GPT-5.2准确率为23%，其余大多数模型的准确率均未超过20%。其中，Grok 4的准确率为15.2%，GPT-OSS-120B和Kimi K2 Thinking的准确率更是低至4.7%和4.0%。

Mercor首席执行官Brendan Foody分析称，AI在此次测试中表现不佳的主要原因是缺乏上下文处理能力。在真实办公场景中，任务往往需要跨多个信息源进行搜索和整理，而AI在整合分散资源时容易混淆或出错，甚至直接放弃任务。这种局限性使得当前的AI更像是一个“不可靠的实习生”，而非能够独立处理复杂工作的专业人员。

尽管如此，AI的进步速度仍值得关注。Foody提到，一年前同类测试的准确率仅为5%-10%，如今已提升至24%，远超预期。不过，研究也强调，在掌握多任务处理和上下文切换能力之前，AI仍无法胜任需要高度整合和判断的知识型工作。

以下是APEX-Agents基准测试中各模型的准确率排名（从高到低）：Gemini 3 Flash (24.0%)、GPT-5.2 (23.0%)、Claude Opus 4.5 (18.4%)、Gemini 3 Pro (18.4%)、GPT-5 (18.3%)、Grok 4 (15.2%)、GPT-OSS-120B (4.7%)、Kimi K2 Thinking (4.0%)。

更多>同类资讯

华为云持续发力：盘古大模型开源，下半年AgentArts平台将推多领域“龙虾”

03-20

沐曦股份马年业绩向好：长跑潜质初显，仍需跨越四重挑战关卡

03-20

亿纬锂能成都基地新突破：“龙泉三号”“龙泉四号”全固态电池下线

03-20

老黄怒怼玩家根本不懂AI！英伟达新AI功能遭全网抵制

03-20

OpenAI将发布“超级应用”：整合ChatGPT等三大平台

03-20

OpenAI筹划桌面「超级应用」

03-20

Boss直聘内测AI产品「DeepHire」

03-20

中泰证券揭秘：OpenClaw如何助力投研人打造高效数字员工体系

本报告由中泰证券发布，聚焦人工智能工具OpenClaw在投研工作中的应用实践，核心围绕投研从业者如何搭建基于OpenClaw的“投研数字员工”体系展开，详解其配置、接入、自建技能及实操方法，为投研工作流提效…

03-20

OpenAI再出大招！桌面级“超级应用”整合多工具开启全场景新体验

03-20

Canva拟明年IPO：加速AI转型，以垂类设计能力应对科技巨头竞争

03-20

北京社区新景：智慧康养机器人养老驿站开启养老服务新体验

在智慧康养机器人养老驿站内，一名社区居民(前)体验一款智能行走机器人(3月18日摄)。在智慧康养机器人养老驿站内，一名社区居民体验一款智能理疗机器人(3月18日摄)。一名社区居民(前)在智慧康养机器人养…

03-20

OpenAI拟推桌面“超级应用” 整合多产品构建完整AI工作界面

03-20

上海科学家8年攻关：为水稻找回“长寿密码”，未来种一次或可收多年

03-20

国产芯片“混搭”新突破！上海AI实验室DeepLink方案激活算力潜能，多品牌适配提速AI应用

03-20

黄仁勋预言“AI工厂”时代：AI产业从探索迈向工业化新征程

03-20

点击查看更多 +

全站最新

为什么看好联想？黄仁勋预言杨元庆"今年属于你"的背后

直线跳水！金银崩完，原油崩！

LPR连续10个月持稳，年内还有降息空间吗？

港股异动丨油气设备与服务股普跌，百勤油服跌超6%

A股异动丨油气板块集体“回调”，10余只个股跌幅超5%

源杰科技20cm涨停成A股市场第二高价股

热门内容

本栏最新

中泰证券揭秘：OpenClaw如何助力投研人打造高效数字员工体系

飞书发布“龙虾”智能体及aily专业版助力办公与企业系统高效升级

三一工车发力新能源赛道 TAI品牌及2026款新品亮相冲击全球领军地位

华为伙伴大会2026：以共享融合之力，共赴数智跃升新征程

姚劲波亚布力论坛发声：AI变革规模超互联网十倍，催生新成功典范

云从科技在国家网安基地打造首个安全可控AI智能体“养殖场”

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.