滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

AI 学霸遭遇重创！GPT-4o 专家考试仅得 2.7 分

时间：2026-02-03 20:19:17 来源：CHINAZ编辑：快讯 IP：北京 发表评论无障碍通道

最近一项名为 “人类终极考试”（HLE）的测试结果让我们重新审视 AI 的真实能力。根据《自然》杂志的报道，GPT-4o 在这 2500 道由全球专家出题的测试中，仅获得了可怜的 2.7 分（满分 100 分），而表现最好的 AI 模型也仅得 8 分。这一结果让人质疑，AI 的强大究竟是实打实的实力，还是表面的繁荣？

传统的 AI 测试越来越无法反映真实能力，主要原因有两个。一是 “基准饱和”，即 AI 系统已经将常规测试题目背得滚瓜烂熟，得分的高低与真正的理解能力无关；二是 “答案作弊”，很多测试的答案可以直接在网上找到，使得 AI 看似答对问题，但实际上只是依赖于检索和记忆，而非真正的推理能力。

为了解决这些问题，HLE 的设计者们集结了来自 50 个国家的近 1000 名专家，确保每道题目都要求深层的专业知识，难度大幅提升。HLE 的题目不仅覆盖了数学、物理、化学等多个领域，还设定了严格的审核流程，确保题目难度足够，难以被 AI 轻易破解。比如数学题需要深入逻辑推理，化学题涉及复杂的反应机制，绝不是简单的检索就能得到答案。

测试结果一目了然：GPT-4o 仅得 2.7 分，Claude 3.5 Sonnet 和 Gemini 1.5 Pro 也只分别获得 4.1% 和 4.6% 的准确率，表现最好的 o1 也仅得 8%。这些数据清楚地表明，即便是最新一代的 AI，在面对真正需要深厚专业知识的问题时，依然显得无能为力。

通过 HLE 的测试，我们可以看到 AI 的真实能力与传统基准测试中的高分形成了鲜明对比。这也促使我们重新思考，AI 是否真的如我们想象中那样聪明，还是只是一种表象的成功。

更多>同类资讯

第三代G3愿景喷气式飞机亮相：豪华内饰升级载客量提升空间利用更灵活

02-14

长十与梦舟同飞验证突破关键技术，中国载人登月稳步迈向新里程

02-14

成都锦江主城区eVTOL首飞成功未来“空中出租车”出行不是梦

02-14

长征十号火箭一级箭体海上回收成功关键技术验证助力航天新征程

02-14

哈勃望远镜定格：螺旋星系NGC4388穿越星系团拖曳发光气体流

02-14

成都产投助力星际荣耀：超50亿融资加速可复用火箭研发与产业布局

02-14

美国电动汽车热潮退烧，底特律车企遭遇500亿美元重创

02-14

资管巨头资本集团押注欧洲央行2026年将加息与主流观点相悖

02-14

欧洲银行股年内涨幅悉数回吐分析师：银行股已成为人工智能最新受害者

02-14

《传说对决》x《甄嬛传》皮肤引争议：拽妃开叉短裙疑似擦边？

02-14

宁德时代与盐城携手：绿色智造基地签约，共筑零碳产业新未来

02-13

150年前沉船“开口说话”：古DNA揭秘清代瓷器包装与沉没之谜

02-13

通胀降温！美国1月核心CPI创近5年新低，今年降息稳了？

02-13

索尼新专利曝光！100GB大作有望缩减至100MB

02-13

“天关”卫星立大功：巡天时捕捉到中等质量黑洞“吞噬”白矮星现场

（图片来源：国家天文台）2025年7月2日，搭载于卫星上的宽视场X射线望远镜WXT（昵称“万星瞳”）在例行巡天观测中，发现一例突然出现的，存在剧烈光变的暂现源。基于这些观测事实，“天关”科学团队提出了一…

02-13

点击查看更多 +

全站最新

魏建军再发声确认合作进展长城与FF携手开拓北美市场迎新突破

比亚迪宋PLUS：以硬核实力铸就销量传奇，引领中国新能源SUV新风潮

沃尔沃SPA3平台突破传统束缚低底盘纯电轿车与旅行车或迎“新生”

智电时代稳健前行，一汽丰田以多元布局与创新驱动开启新征程

问界M6内饰谍照引热议！运动科技双升级 25万级市场或迎新爆款

新款Jeep Avenger冬季测试谍照流出 2027年发布内饰动力全面升级

热门内容

本栏最新

通胀降温！美国1月核心CPI创近5年新低，今年降息稳了？

公告精选︱掌阅科技：2025年度AI短剧业务收入预计不超过2025年度主营业务收入的1%；嘉麟杰：实际控制人李兆廷被采取强制措施

全固态电池产业化加速：工艺装备创新突破，产学研共筑全链条协同新篇

不同集团、卧安机器人、英矽智能等将纳入香港恒生综合指数

龙虎榜 | 深科技强势涨停，游资齐扎堆！深股通、机构抢筹光线传媒

无需编程的全栈开发平台：软件开发范式升级，结构层构建新未来

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.