ITBear旗下自媒体矩阵:

AI评测藏“格式陷阱”:BERT法官如何让聪明模型不被冤枉零分?

   时间:2026-04-23 22:51:34 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

当人们评估人工智能助手的智能水平时,最常用的方法是通过一系列测试题进行考核,将AI的回答与标准答案对比得出分数。然而,法国巴黎萨克雷大学CentraleSupélec下属MICS实验室联合多家机构的研究发现,这种看似合理的评分方式存在严重缺陷——问题不在于AI无法正确答题,而在于评分系统无法准确识别正确答案。

研究人员用数学考试中的常见场景打比方:某学生正确计算出答案为45,并在答题框中规范书写"boxed{45}",但阅卷系统因无法识别这种标准数学格式而直接判零分。这种评分僵化现象在现有AI评测体系中普遍存在,导致大量正确答案因格式问题被误判。

该研究团队对36个AI模型在15项测试任务中的表现进行系统分析,发现数学类任务的格式错误率最高。例如Llama-3的700亿参数版本在数学题上的解析失败率超过60%,意味着超半数正确答案无法被系统识别。相比之下,选择题和阅读理解题的格式错误率普遍较低,但即便格式正确,详细答案与标准答案的字面差异仍会导致误判。

这种评分偏差对AI排行榜产生显著影响。以Qwen-3的320亿参数版本为例,其在选择题任务中的实际排名因格式问题比真实水平低18位,而Gemma-3的40亿参数版本则虚高6位。这表明现有排行榜更多反映模型对格式规范的适应能力,而非实际解题水平。

针对传统评分方式的缺陷,研究团队提出"BERT法官"轻量级解决方案。该系统基于双向编码器模型,通过100万条合成标注数据进行微调训练,能够准确理解答案语义而非机械匹配格式。在苹果M1芯片笔记本电脑上,每道题的评判时间仅需200毫秒,计算成本比使用大型AI模型降低数个数量级。

实验数据显示,BERT法官在各类任务中表现优异:在ARC-Easy选择题上达到99.7%准确率,HotpotQA阅读理解题上达90.9%,GSM8K数学题上达98.8%。相比之下,参数规模仅6亿的大语言模型法官在ARC-Challenge任务中准确率不足51%,甚至低于传统规则评测的89%。

该系统的泛化能力通过多项测试验证。在完全未参与训练的CoQA、DROP等6项任务中,BERT法官仍保持高准确率;对Ministral-3等未接触过的模型家族,其评判准确率与接触过相关数据的版本差距不足1%。研究还发现,即使训练数据量减少至10万条,系统在选择题和数学题上的表现依然稳定。

为优化评测流程,研究团队设计了混合评分策略:对格式规范的答案采用传统评测,对解析失败的答案调用BERT法官补救。这种方案在保持准确率的同时,可将BERT法官的使用频率降低80%。系统在去除题目输入或面对自由格式答案时,仍能维持合理准确率,展现出较强的适应性。

不同答题策略的对比实验揭示,要求模型严格遵循"Final answer: X"格式会显著抑制其推理能力。在GSM8K数学任务中,强制格式约束导致模型表现下降30.5个百分点,而允许自由推理的"软格式"要求则能兼顾格式可解析性与推理完整性。

该研究已开源训练数据、代码和模型权重,为AI评测领域提供低成本解决方案。研究团队指出,当前方法主要适用于有明确标准答案的任务,未来计划向多语言、多模态及开放式生成任务扩展。完整技术细节可通过arXiv编号2604.09497查询。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version