训练数据公司Mercor近日发布的一份研究报告显示,当前主流人工智能模型在应对真实办公室任务时表现欠佳,最高准确率未能突破25%。这一结果引发了业界对AI能否快速替代人类知识工作者的讨论,研究指出,短期内AI尚难以胜任复杂的知识型工作。
测试结果显示,即便是市场领先的人工智能模型也难以达到理想水平。成绩最优的Gemini 3 Flash准确率仅为24%,紧随其后的GPT-5.2准确率为23%,其余大多数模型的准确率均未超过20%。其中,Grok 4的准确率为15.2%,GPT-OSS-120B和Kimi K2 Thinking的准确率更是低至4.7%和4.0%。
Mercor首席执行官Brendan Foody分析称,AI在此次测试中表现不佳的主要原因是缺乏上下文处理能力。在真实办公场景中,任务往往需要跨多个信息源进行搜索和整理,而AI在整合分散资源时容易混淆或出错,甚至直接放弃任务。这种局限性使得当前的AI更像是一个“不可靠的实习生”,而非能够独立处理复杂工作的专业人员。
尽管如此,AI的进步速度仍值得关注。Foody提到,一年前同类测试的准确率仅为5%-10%,如今已提升至24%,远超预期。不过,研究也强调,在掌握多任务处理和上下文切换能力之前,AI仍无法胜任需要高度整合和判断的知识型工作。
以下是APEX-Agents基准测试中各模型的准确率排名(从高到低):Gemini 3 Flash (24.0%)、GPT-5.2 (23.0%)、Claude Opus 4.5 (18.4%)、Gemini 3 Pro (18.4%)、GPT-5 (18.3%)、Grok 4 (15.2%)、GPT-OSS-120B (4.7%)、Kimi K2 Thinking (4.0%)。











