全球顶尖学者团队近日在《自然》杂志发表了一项突破性研究,推出名为“人类终极挑战”(HLE)的AI基准测试系统。这项由近千名科学家联合设计的评估体系,旨在为人工智能发展设立全新标杆。测试涵盖数学、物理、医学等六大领域,每道题目均由对应学科权威专家精心设计,并经过严格的AI预筛选机制——只有当所有主流模型均无法正确解答时,题目才会被纳入题库。
最新测试结果显示,当前最先进的AI模型表现远低于预期。GPT-4o仅取得2.7%的正确率,Claude 3.5 Sonnet为4.1%,OpenAI的o1模型达到8%。即便后续升级的Gemini 2.5 Pro和GPT-5,得分也分别只有21.6%和25.3%,无一达到及格线。研究团队特别指出,这些模型在答题时普遍表现出过度自信,超过80%的错误答案被赋予90%以上的置信度,这种认知偏差在医疗诊断等关键领域可能引发严重风险。
测试题目设计极具挑战性。例如某道历史题要求解读古叙利亚帕尔米拉文明的碑文,需要同时掌握古闪米特语、考古学和历史学知识;生物学题目则考察蜂鸟骨骼结构,需精确识别特定籽骨连接的肌腱数量;数学题涉及自然变换理论,满屏的Σ、∞符号构成视觉与逻辑的双重考验。每道题目的诞生都经历严苛筛选:先由AI初筛淘汰简单题目,再经研究生团队初审,最终由学科专家终审确认。
该基准的推出源于传统测试体系的失效。以MMLU测试为例,其包含57个学科1.4万道题目,2020年时AI平均得分仅30-40分,但到2023年GPT-4已飙升至86分,当前开源模型更普遍突破90分大关。这种“分数溢出”现象促使学界重新思考评估标准。“人类终极挑战”的2500道题目,正是从数万道原始题目中精挑细选而出,确保能持续区分人类专家与AI系统的能力边界。
研究发现,推理模型的表现与思考时间呈现非线性关系。适当延长思考时间可提升正确率,但超过临界值后反而下降,暗示当前AI存在“无效推理”现象。这为模型优化提供了新方向:相比单纯增加计算量,更需要提升推理效率。测试数据还显示,AI在数学和计算机领域表现相对突出,但历史、语言等需要深度语境理解的领域得分惨淡,暴露出符号操作与真实世界理解之间的本质差异。
该基准测试系统已部分公开,访问lastexam.ai网站即可查看样题。研究团队强调,这项工作并非制造“AI恐慌”,而是提供客观评估工具。通过明确技术边界,既能防止对AI能力的过度神化,也能为开发者指明改进方向。参与命题的学者指出,真正的智能需要融合专业知识、上下文理解和深度推理能力,当前系统距离这个目标仍有显著差距。
相关论文已发表于《自然》杂志,完整测试数据集和命题方法论同步公开。这项研究不仅为AI评估树立新标准,更引发对人类智能本质的深入思考——当机器开始挑战专家级学术问题时,我们或许需要重新定义“智慧”的内涵。











