ITBear旗下自媒体矩阵:

阿里巴巴团队出手:为AI权威测试“人类最后的考试”精准纠错

   时间:2026-02-25 21:34:32 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在人工智能领域,一套名为“人类最后的考试”(HLE)的测试题长期被视为衡量AI能力的重要标准。然而,阿里巴巴集团与Qwen团队联合开展的一项研究显示,这套权威测试题存在诸多缺陷,可能导致对AI能力的误判。经过系统性修正,研究团队发布了HLE-Verified版本,为AI评测提供了更可靠的基准。

HLE测试题涵盖数学、物理、化学、生物医学、计算机科学等多个学科,每道题均具有较高难度。但研究人员发现,部分题目存在描述模糊、答案错误或解题过程不合理等问题。这些问题引发了学术界的质疑:AI的错误表现究竟是能力不足,还是测试题本身存在缺陷?

为解决这一问题,阿里巴巴研究团队启动了一项大规模的验证工程。他们对原版2500道题目进行了全面筛查,采用“初步筛查”与“深度治疗”相结合的两阶段流程。在初步筛查阶段,团队邀请各领域专家、8个先进AI模型以及内部专家团队共同参与,确保题目描述清晰、答案正确且解题过程合理。最终,仅641道题目被认定为完全无误,可直接使用。

剩余题目中,1170道被标记为“可修复”。研究团队采用“双重保险”机制,由两个独立专家团队分别提出修复方案,再由内部专家综合评估,选择最优方案或合并改进。同时,AI模型被引入修复验证环节,确保修复后的题目能有效避免原有问题。经过这一阶段,1170道题目成功“重生”,与第一阶段的641道共同构成1811道可靠题目。

另有689道题目因涉及争议性学术观点、超出当前验证范围或存在多种合理解释,被标记为“不确定”状态。研究团队详细记录了每道题的具体问题及所需专业知识,为后续研究提供参考。这一分类方式既避免了强行修正可能引发的偏差,也为学术界保留了讨论空间。

研究团队对题目中的错误类型进行了系统分类。题目描述错误包括语义模糊、知识错误、信息缺失、理论错误及格式错误;解题过程错误涵盖推理冗余、循环论证、逻辑矛盾等十种类型;答案错误则涉及答案不正确、不完整或表述模糊等问题。不同学科的错误模式差异显著:数学与生物医学领域答案错误较多,物理与人文社科领域表述问题突出,计算机科学领域则常见格式错误。

为验证修复效果,研究团队让七个主流AI模型在原版与修复版题目上分别测试。结果显示,所有模型在修复版上的准确率平均提升7至10个百分点,在原有问题题目上的准确率提升达30至40个百分点。AI模型在回答修复版题目时表现出更高的“自信心”,即答案确定性显著增强。这一发现表明,题目质量直接影响AI的表现评估。

从学科维度看,物理与生物医学领域的改进最为显著,这两个领域原AI准确率较低,修复后提升幅度最大;化学与计算机科学领域改进幅度较小,但整体趋势积极。这一差异反映了不同学科在题目设计上的特点,也为针对性优化提供了方向。

AI模型自信心与题目质量的相关性为评测提供了新视角。研究发现,当题目存在缺陷时,AI模型倾向于给出低确定性答案;修复后,其答案确定性普遍提高。这一规律可用于识别潜在问题题目:若多个模型对某题均表现出低自信心,则该题可能存在缺陷。

这项研究不仅修正了一套权威测试题,更引发了对AI评测体系的深层思考。研究指出,使用有缺陷的基准评估AI,可能导致对技术能力的误判,甚至误导研发方向。通过建立系统化的验证流程、详细的错误分类体系及严格的质量控制标准,研究团队为AI评测基准的维护与改进提供了可复制的范式。

目前,HLE-Verified数据集已完全开源,研究团队公开了每道题的修改记录与错误分类信息,供全球研究者参考。对于689道“不确定”题目,团队提供了详细的问题描述与专业知识标签,期待后续研究能进一步完善这些题目。这一开放姿态体现了学术共享精神,也为AI评测的持续优化奠定了基础。

对公众而言,这项研究意味着对AI能力的评价将更加可信。当媒体报道“某AI在权威测试中表现优异”时,公众可更有信心地接受这一结论。对开发者而言,更准确的评测基准能帮助他们更清晰地定位技术短板,制定有效的改进策略。这一基础性工作虽不显眼,却对AI技术的健康发展至关重要。

欲了解技术细节,可查阅arXiv平台论文(编号:arXiv:2602.13964v2),其中包含完整的方法描述、实验数据与深入分析。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version