ITBear旗下自媒体矩阵:

AI办公测试准确率未超25% 进步显著但胜任复杂工作仍需时日

   时间:2026-01-26 14:44:38 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

训练数据公司Mercor近日发布的一份研究报告显示,当前主流人工智能模型在应对真实办公室任务时表现欠佳,最高准确率未能突破25%。这一结果引发了业界对AI能否快速替代人类知识工作者的讨论,研究指出,短期内AI尚难以胜任复杂的知识型工作。

测试结果显示,即便是市场领先的人工智能模型也难以达到理想水平。成绩最优的Gemini 3 Flash准确率仅为24%,紧随其后的GPT-5.2准确率为23%,其余大多数模型的准确率均未超过20%。其中,Grok 4的准确率为15.2%,GPT-OSS-120B和Kimi K2 Thinking的准确率更是低至4.7%和4.0%。

Mercor首席执行官Brendan Foody分析称,AI在此次测试中表现不佳的主要原因是缺乏上下文处理能力。在真实办公场景中,任务往往需要跨多个信息源进行搜索和整理,而AI在整合分散资源时容易混淆或出错,甚至直接放弃任务。这种局限性使得当前的AI更像是一个“不可靠的实习生”,而非能够独立处理复杂工作的专业人员。

尽管如此,AI的进步速度仍值得关注。Foody提到,一年前同类测试的准确率仅为5%-10%,如今已提升至24%,远超预期。不过,研究也强调,在掌握多任务处理和上下文切换能力之前,AI仍无法胜任需要高度整合和判断的知识型工作。

以下是APEX-Agents基准测试中各模型的准确率排名(从高到低):Gemini 3 Flash (24.0%)、GPT-5.2 (23.0%)、Claude Opus 4.5 (18.4%)、Gemini 3 Pro (18.4%)、GPT-5 (18.3%)、Grok 4 (15.2%)、GPT-OSS-120B (4.7%)、Kimi K2 Thinking (4.0%)。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version