ITBear旗下自媒体矩阵:

AI 学霸遭遇重创!GPT-4o 专家考试仅得 2.7 分

   时间:2026-02-03 20:19:17 来源:CHINAZ编辑:快讯 IP:北京 发表评论无障碍通道
 

最近一项名为 “人类终极考试”(HLE)的测试结果让我们重新审视 AI 的真实能力。根据《自然》杂志的报道,GPT-4o 在这 2500 道由全球专家出题的测试中,仅获得了可怜的 2.7 分(满分 100 分),而表现最好的 AI 模型也仅得 8 分。这一结果让人质疑,AI 的强大究竟是实打实的实力,还是表面的繁荣?

传统的 AI 测试越来越无法反映真实能力,主要原因有两个。一是 “基准饱和”,即 AI 系统已经将常规测试题目背得滚瓜烂熟,得分的高低与真正的理解能力无关;二是 “答案作弊”,很多测试的答案可以直接在网上找到,使得 AI 看似答对问题,但实际上只是依赖于检索和记忆,而非真正的推理能力。

为了解决这些问题,HLE 的设计者们集结了来自 50 个国家的近 1000 名专家,确保每道题目都要求深层的专业知识,难度大幅提升。HLE 的题目不仅覆盖了数学、物理、化学等多个领域,还设定了严格的审核流程,确保题目难度足够,难以被 AI 轻易破解。比如数学题需要深入逻辑推理,化学题涉及复杂的反应机制,绝不是简单的检索就能得到答案。

测试结果一目了然:GPT-4o 仅得 2.7 分,Claude 3.5 Sonnet 和 Gemini 1.5 Pro 也只分别获得 4.1% 和 4.6% 的准确率,表现最好的 o1 也仅得 8%。这些数据清楚地表明,即便是最新一代的 AI,在面对真正需要深厚专业知识的问题时,依然显得无能为力。

通过 HLE 的测试,我们可以看到 AI 的真实能力与传统基准测试中的高分形成了鲜明对比。这也促使我们重新思考,AI 是否真的如我们想象中那样聪明,还是只是一种表象的成功。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version