滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

全球顶尖学者设2500道专家级考题，主流AI最高仅得25.3%难及格

时间：2026-03-01 18:49:05 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

全球顶尖学者团队近日在《自然》杂志发表了一项突破性研究，推出名为“人类终极挑战”（HLE）的AI基准测试系统。这项由近千名科学家联合设计的评估体系，旨在为人工智能发展设立全新标杆。测试涵盖数学、物理、医学等六大领域，每道题目均由对应学科权威专家精心设计，并经过严格的AI预筛选机制——只有当所有主流模型均无法正确解答时，题目才会被纳入题库。

最新测试结果显示，当前最先进的AI模型表现远低于预期。GPT-4o仅取得2.7%的正确率，Claude 3.5 Sonnet为4.1%，OpenAI的o1模型达到8%。即便后续升级的Gemini 2.5 Pro和GPT-5，得分也分别只有21.6%和25.3%，无一达到及格线。研究团队特别指出，这些模型在答题时普遍表现出过度自信，超过80%的错误答案被赋予90%以上的置信度，这种认知偏差在医疗诊断等关键领域可能引发严重风险。

测试题目设计极具挑战性。例如某道历史题要求解读古叙利亚帕尔米拉文明的碑文，需要同时掌握古闪米特语、考古学和历史学知识；生物学题目则考察蜂鸟骨骼结构，需精确识别特定籽骨连接的肌腱数量；数学题涉及自然变换理论，满屏的Σ、∞符号构成视觉与逻辑的双重考验。每道题目的诞生都经历严苛筛选：先由AI初筛淘汰简单题目，再经研究生团队初审，最终由学科专家终审确认。

该基准的推出源于传统测试体系的失效。以MMLU测试为例，其包含57个学科1.4万道题目，2020年时AI平均得分仅30-40分，但到2023年GPT-4已飙升至86分，当前开源模型更普遍突破90分大关。这种“分数溢出”现象促使学界重新思考评估标准。“人类终极挑战”的2500道题目，正是从数万道原始题目中精挑细选而出，确保能持续区分人类专家与AI系统的能力边界。

研究发现，推理模型的表现与思考时间呈现非线性关系。适当延长思考时间可提升正确率，但超过临界值后反而下降，暗示当前AI存在“无效推理”现象。这为模型优化提供了新方向：相比单纯增加计算量，更需要提升推理效率。测试数据还显示，AI在数学和计算机领域表现相对突出，但历史、语言等需要深度语境理解的领域得分惨淡，暴露出符号操作与真实世界理解之间的本质差异。

该基准测试系统已部分公开，访问lastexam.ai网站即可查看样题。研究团队强调，这项工作并非制造“AI恐慌”，而是提供客观评估工具。通过明确技术边界，既能防止对AI能力的过度神化，也能为开发者指明改进方向。参与命题的学者指出，真正的智能需要融合专业知识、上下文理解和深度推理能力，当前系统距离这个目标仍有显著差距。

相关论文已发表于《自然》杂志，完整测试数据集和命题方法论同步公开。这项研究不仅为AI评估树立新标准，更引发对人类智能本质的深入思考——当机器开始挑战专家级学术问题时，我们或许需要重新定义“智慧”的内涵。

更多>同类资讯

华为MWC2026首秀：Atlas 950携8192张昇腾卡打造全球算力新标杆

03-01

知乎接入DeepSeek-R1：从知识集市到智慧伙伴，开启高效思考新旅程

它的“搜索”行为，发生在一个更底层、更智能的层面：它直接在知乎这座沉淀了超过5000万篇高质量中英文问答、专栏文章、文献精华的“知识富矿”里，进行深度挖掘和逻辑推理。你会感觉，AI不是在机械地回复，而是在有逻…

03-01

娃哈哈精机公司进入解散程序，曾深耕智能装备与机器人研发领域

03-01

博通3.5D XDSiP平台发力，2nm定制芯片交付富士通助力AI计算新突破

自2024年推出我们的3.5D XDSiP平台技术以来，博通扩大了其3.5D平台功能，以支持我们将于2026年下半年发货的更广泛客户群的XPU。通过将2nm工艺创新与面对面3D集成相结合，它释放了下一代人工智…

03-01

英伟达携手多家行业巨头共筑6G人工智能原生无线平台新未来

IT之家 3 月 1 日消息，在 2026年巴塞罗那世界移动通信大会上，英伟达今日宣布与博思艾伦咨询公司、英国电信集团、思科、德国电信、爱立信、MITRE、诺基亚、OCUDU生态系统基金会、ODC、SK …

03-01

我国发布人形机器人与具身智能标准体系，为产业突破发展指明方向

工业和信息化部人形机器人与具身智能标委会副主任委员江磊：行业已经发展到规模化的前期，应当说2025年已经发展到万台级。据介绍，下一步，工业和信息化部人形机器人与具身智能标准化技术委员会（以下简称“标委会…

03-01

英伟达携手多家企业共筑人工智能原生6G网络新未来

03-01

MWC 2026巴塞罗那：华为携Atlas 950 SuperPoD等超节点产品亮相海外

03-01

三星电子发布AI战略蓝图：2030年全球工厂迈向AI驱动自主生产新阶段

03-01

英特尔至强600系列处理器发布，86核至强698X多负载下睿频表现全解析

03-01

英伟达携手多家企业共筑6G未来：打造开放可信人工智能无线平台

IT之家 3 月 1 日消息，在 2026年巴塞罗那世界移动通信大会上，英伟达今日宣布与博思艾伦咨询公司、英国电信集团、思科、德国电信、爱立信、MITRE、诺基亚、OCUDU生态系统基金会、ODC、SK …

03-01

装机量突破4700万、生态超7.5万款，鸿蒙开启“全场景生态”新征程

更值得注意的是，它正在与昇腾计算生态形成协同。如果生态继续扩张，应用质量稳步提升，AI能力顺利融入终端场景，鸿蒙有望成为全球移动操作系统的第三极；如果增长停滞，它则可能停留在区域性成功阶段。真正的考验，是…

03-01

杭州以勒现磨咖啡机源头工厂：借智能化管理，开启商用设备制造新篇章

这些在终端产品上积累的物联网、大数据与人工智能技术，无疑为其生产工厂的智能化管理提供了深厚的技术储备和可借鉴的实施经验。总的来看，从杭州以勒的实践可以看出，源头工厂的智能化管理，实质上是将新一代信息技术与制…

03-01

AI浪潮下6G网络如何破局？从流量重塑到架构革新全解析

报告指出，当前 AI 应用对移动网络流量影响有限，但未来多模态 AI 应用、AI 终端及行业场景将重塑流量格局：一方面，AR眼镜、自动驾驶等场景会推高上行链路需求，打破当下下行主导的网络设计，且 AI 密集…

03-01

理想汽车2月交付26421辆累计破150万台新车型与超充网络助力发展

03-01

点击查看更多 +

全站最新

马年新春送礼新思路！讯飞AI录音笔Pokee，助力职场新人高效开启新年征程

2026重庆智电展：供应链巨头展台大比拼，谁将引领技术新潮流？

华为乾崑智驾车位到车位2.0使用超4000万次，春节辅助驾驶数据也亮眼

康弘药业(002773.SZ)：枸橼酸莫沙必利片等8款药品获集采接续资格含两款首次参与品种

3月11日上市！iCAR V27增程系统超给力，续航超1200km成家庭越野新宠

小米汽车官宣入局超跑领域携Vision GT实车亮相MWC探索未来出行

热门内容

本栏最新

理想汽车2月交付26421辆累计破150万台新车型与超充网络助力发展

理想汽车2月交付超2.6万辆累计交付破159万新品二季度上市

零跑汽车2月交付28067台零跑A10即将预售 2026年上半年批量交付

零跑汽车2月交付28067台创新高 A10即将预售续航超500km配置丰富

2025款别克E5：17万级合资纯电新选择，大空间强续航驾控出色

中国科研突破！新型电池低温续航强劲，能量密度飙升或改写新能源格局

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.