滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

阿里巴巴团队出手：为AI权威测试“人类最后的考试”精准纠错

时间：2026-02-25 21:34:32 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能领域，一套名为“人类最后的考试”（HLE）的测试题长期被视为衡量AI能力的重要标准。然而，阿里巴巴集团与Qwen团队联合开展的一项研究显示，这套权威测试题存在诸多缺陷，可能导致对AI能力的误判。经过系统性修正，研究团队发布了HLE-Verified版本，为AI评测提供了更可靠的基准。

HLE测试题涵盖数学、物理、化学、生物医学、计算机科学等多个学科，每道题均具有较高难度。但研究人员发现，部分题目存在描述模糊、答案错误或解题过程不合理等问题。这些问题引发了学术界的质疑：AI的错误表现究竟是能力不足，还是测试题本身存在缺陷？

为解决这一问题，阿里巴巴研究团队启动了一项大规模的验证工程。他们对原版2500道题目进行了全面筛查，采用“初步筛查”与“深度治疗”相结合的两阶段流程。在初步筛查阶段，团队邀请各领域专家、8个先进AI模型以及内部专家团队共同参与，确保题目描述清晰、答案正确且解题过程合理。最终，仅641道题目被认定为完全无误，可直接使用。

剩余题目中，1170道被标记为“可修复”。研究团队采用“双重保险”机制，由两个独立专家团队分别提出修复方案，再由内部专家综合评估，选择最优方案或合并改进。同时，AI模型被引入修复验证环节，确保修复后的题目能有效避免原有问题。经过这一阶段，1170道题目成功“重生”，与第一阶段的641道共同构成1811道可靠题目。

另有689道题目因涉及争议性学术观点、超出当前验证范围或存在多种合理解释，被标记为“不确定”状态。研究团队详细记录了每道题的具体问题及所需专业知识，为后续研究提供参考。这一分类方式既避免了强行修正可能引发的偏差，也为学术界保留了讨论空间。

研究团队对题目中的错误类型进行了系统分类。题目描述错误包括语义模糊、知识错误、信息缺失、理论错误及格式错误；解题过程错误涵盖推理冗余、循环论证、逻辑矛盾等十种类型；答案错误则涉及答案不正确、不完整或表述模糊等问题。不同学科的错误模式差异显著：数学与生物医学领域答案错误较多，物理与人文社科领域表述问题突出，计算机科学领域则常见格式错误。

为验证修复效果，研究团队让七个主流AI模型在原版与修复版题目上分别测试。结果显示，所有模型在修复版上的准确率平均提升7至10个百分点，在原有问题题目上的准确率提升达30至40个百分点。AI模型在回答修复版题目时表现出更高的“自信心”，即答案确定性显著增强。这一发现表明，题目质量直接影响AI的表现评估。

从学科维度看，物理与生物医学领域的改进最为显著，这两个领域原AI准确率较低，修复后提升幅度最大；化学与计算机科学领域改进幅度较小，但整体趋势积极。这一差异反映了不同学科在题目设计上的特点，也为针对性优化提供了方向。

AI模型自信心与题目质量的相关性为评测提供了新视角。研究发现，当题目存在缺陷时，AI模型倾向于给出低确定性答案；修复后，其答案确定性普遍提高。这一规律可用于识别潜在问题题目：若多个模型对某题均表现出低自信心，则该题可能存在缺陷。

这项研究不仅修正了一套权威测试题，更引发了对AI评测体系的深层思考。研究指出，使用有缺陷的基准评估AI，可能导致对技术能力的误判，甚至误导研发方向。通过建立系统化的验证流程、详细的错误分类体系及严格的质量控制标准，研究团队为AI评测基准的维护与改进提供了可复制的范式。

目前，HLE-Verified数据集已完全开源，研究团队公开了每道题的修改记录与错误分类信息，供全球研究者参考。对于689道“不确定”题目，团队提供了详细的问题描述与专业知识标签，期待后续研究能进一步完善这些题目。这一开放姿态体现了学术共享精神，也为AI评测的持续优化奠定了基础。

对公众而言，这项研究意味着对AI能力的评价将更加可信。当媒体报道“某AI在权威测试中表现优异”时，公众可更有信心地接受这一结论。对开发者而言，更准确的评测基准能帮助他们更清晰地定位技术短板，制定有效的改进策略。这一基础性工作虽不显眼，却对AI技术的健康发展至关重要。

欲了解技术细节，可查阅arXiv平台论文（编号：arXiv:2602.13964v2），其中包含完整的方法描述、实验数据与深入分析。

更多>同类资讯

亚马逊内部荒诞一幕：为刷token消耗量员工让AI瞎忙

05-13

Seedance 2.0最强对手偷跑了

05-13

小米法务部：四起网络侵权案均获一审胜诉

05-13

咖啡店让AI取代真人当店长：一次狂订6000包餐巾纸

05-13

迭代大幅放缓！苹果新款Vision Pro被曝最快2028年推出

05-13

京东AI试穿功能上线

05-13

奥特曼今明两日将在马斯克诉讼案中出庭作证

05-13

谷歌报告：黑客群体已开始滥用AI工具找漏洞

05-13

新能源摧枯拉朽！4月份国内汽车销量前十名仅剩1款油车

05-13

谷歌据悉接洽SpaceX发射轨道数据中心

05-13

谷歌安卓推出Pause Point：想刷短视频App前先让你冷静10秒

05-13

谷歌确认安卓版Adobe Premiere今夏上线

05-13

谷歌安卓17新增验证功能：识别恶意仿冒系统

05-13

曝谷歌Chromebook将升级为Googlebook，整合Gemini

05-13

小米YU7 GT车厘子红实车现身街头官方确认五月末登场纯电SUV市场再添猛将

5月12日消息，小米YU7GT「车厘子红」配色车型无伪装实车近日被拍到在道路上行驶。小米汽车官方已确认该车将于5月底正式发布。YU7GT是小米YU7系列的高性能版本，从实车照片来看，车身线条相比标准版更加运动…

05-13

点击查看更多 +

全站最新

广汽传祺新款M6 MAX 5月15日登场，家用MPV市场再添实力“卷王”

特斯拉上海超级工厂：4月出口狂飙超5.3万，全球布局下再启新程

2027款奥迪Q9内饰曝光：豪华座舱配智能科技，剑指宝马X7等全尺寸市场

小米汽车4月销量藏惊喜，“少报”6700台后跻身国产新能源前列

比亚迪“三重门”挑战：万亿市值迷局下，技术突围与品牌重塑之路

电车跑高速长途总踩坑？这些实测干货助你告别焦虑，省心又省力！

热门内容

本栏最新

小米YU7 GT车厘子红实车现身街头官方确认五月末登场纯电SUV市场再添猛将

小米4月销量藏玄机：官宣3万实则3.67万，新势力排名跃升至第二

石头科技荣登人民优选舞台：以用户为本，用科技守护国民居家健康

小米汽车4月销量藏惊喜，“少报”6700台后跻身国产新能源前列

比亚迪“三重门”挑战：万亿市值迷局下，技术突围与品牌重塑之路

30万级纯电SUV对决：奥迪E7X凭德系豪华与家庭舒适性胜出？

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.