滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

新测试表明AI实际办公准确率不足25%，但进展比想象更快

时间：2026-01-26 16:24:43 来源：IT之家编辑：快讯 IP：北京 发表评论无障碍通道

1 月 26 日消息，Digital Trends 24 日报道，一项由训练数据公司 Mercor 发布的研究报告指出，当前主流人工智能模型在处理实际办公室任务时表现不佳，最高准确率未超过 25%，研究表明 AI 在短期内难以替代人类知识工作者。

结果显示，即使是市场上明显处于领先地位的模型也无法达到 25% 的准确率，测试中成绩领先的 Gemini 3 Flash 和 GPT-5.2，其准确率也仅为 24% 和 23%，而其他大多数受试模型的成绩则不高于 20%。

为何 AI 会在“办公测试”中失败？Mercor 首席执行官 Brendan Foody 分析称，AI 失败的关键在于缺乏上下文处理能力。在真实办公场景中，任务往往需要整合分散资源，比如查看日程，翻阅即时通讯记录、阅读 PDF 文档和电子表格，而 AI 在跨源信息搜索与整理时容易混淆、出错，要么干脆放弃。这导致目前的 AI 在办公室里更像一个“不可靠的实习生”，而非成熟的专业人员。

附 APEX-Agents 准确率测试结果如下（排名从高到低）：

Gemini 3 Flash (High) - 24.0%

GPT-5.2 (High) - 23.0%

Claude Opus 4.5 (High) - 18.4%

Gemini 3 Pro (High) - 18.4%

GPT-5 (High) - 18.3%

Grok 4 - 15.2%

GPT-OSS-120B (High) - 4.7%

Kimi K2 Thinking - 4.0%

尽管表现有限，但 AI 的进步引人关注。Foody 指出，一年前同类测试的准确率仅为 5%-10%，如今已提升至 24%，AI 的学习速度远超预期。不过，研究也强调，在掌握多任务处理和上下文切换之前，AI 尚无法胜任复杂的知识工作。

更多>同类资讯

归元S平台引领变革，魏牌V9X携全维实力，开启豪华出行新纪元

04-18

OpenAI三年200亿美元押注Cerebras

04-18

OpenAI豪掷超200亿美元牵手Cerebras，加速摆脱英伟达依赖并谋财务优化

04-18

Anthropic推出Claude Opus 4.7：软件金融双突破职场赋能再升级

AI产业明星公司Anthropic周四推出旗舰人工智能模型Claude Opus的4.7版本，侧重于软件工程领域的提升，同时在金融分析、视觉能力和创作“品味”方面均实现了长足的进步。在大多数AI模型“跑分”…

04-18

郑州超算核心节点启用：最大规模科学智能集群助力AI科研加速突破

今年2月5日，国家超算互联网核心节点率先上线试运行，初期开放由超3万张国产AI加速芯片组成的超级计算集群，提供大规模AI算力；4月14日，AI加速芯片升级到6万张，推动超算互联网构建起国内最大规模的科学智能计…

04-18

ChatGPT周活用户近10亿大关，女性用户过半，算力跃升助力服务升级

04-18

名创优品成立AI创新部加速智能化转型布局全球业务决策与办公协同升级

04-18

四川大学副校长刘超：多学科融合推进航天教育科技人才协同共进

04-17

“苹果M1芯片之父”领衔“硅谷芯片铁三角”再创业，Nuvacore发力AI算力新赛道

04-17

联发科天玑9600 Pro来袭：2nm制程+近5GHz主频，携UFS 5.0搅动旗舰市场

04-17

智谱科技拟3.6052亿收购北京红钻科技获物业支持长期战略发展

04-17

DeepSeek V4参数量或创新高 1.6T预期下性能蜕变引期待

04-17

三星全力推进HBM4E研发下月中旬前产核心逻辑芯片样品 2026年或供英伟达

04-17

新车扎堆上市：存量博弈下“车海战术”能否撑起车市质变？

04-17

高德机器狗首度现身街头：过马路等红绿灯，会自己取奶茶

04-17

点击查看更多 +

全站最新

极氪8X上市：30万级SUV市场格局生变吉利品牌边界重梳理

长城汽车天津基地新突破！归元平台赋能，魏牌V9X预售引领产业新篇

雷军15小时直播实测小米SU7续航，呼吁服务区可互动但高速勿跟车

雷军15小时长测直播途中遇蔚来车主打招呼忆往昔：曾是蔚来首批投资人获不少支持

小米汽车人事新布局：胡峥楠履新CTO 宋钢加盟任副总裁兼参谋长

雷军直播直面“营销大师”标签明确小米汽车未来5-10年不走低价路线

热门内容

本栏最新

新车扎堆上市：存量博弈下“车海战术”能否撑起车市质变？

逸景少年走进汽车工厂：探秘智造之旅感受科技与未来的碰撞

零跑D19科技豪华登场！重塑30万内全尺寸SUV价值新标杆

高德机器狗街头亮相：等红灯避行人，还能进店自主取奶茶

零跑D19正式登场！科技豪华旗舰SUV，21.98万起开启高端新征程

金标大众深圳亮剑：与众08能否成为中国纯电战场破局关键？

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.