滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

AI评测藏“格式陷阱”：BERT法官如何让聪明模型不被冤枉零分？

时间：2026-04-23 22:51:34 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

当人们评估人工智能助手的智能水平时，最常用的方法是通过一系列测试题进行考核，将AI的回答与标准答案对比得出分数。然而，法国巴黎萨克雷大学CentraleSupélec下属MICS实验室联合多家机构的研究发现，这种看似合理的评分方式存在严重缺陷——问题不在于AI无法正确答题，而在于评分系统无法准确识别正确答案。

研究人员用数学考试中的常见场景打比方：某学生正确计算出答案为45，并在答题框中规范书写"boxed{45}"，但阅卷系统因无法识别这种标准数学格式而直接判零分。这种评分僵化现象在现有AI评测体系中普遍存在，导致大量正确答案因格式问题被误判。

该研究团队对36个AI模型在15项测试任务中的表现进行系统分析，发现数学类任务的格式错误率最高。例如Llama-3的700亿参数版本在数学题上的解析失败率超过60%，意味着超半数正确答案无法被系统识别。相比之下，选择题和阅读理解题的格式错误率普遍较低，但即便格式正确，详细答案与标准答案的字面差异仍会导致误判。

这种评分偏差对AI排行榜产生显著影响。以Qwen-3的320亿参数版本为例，其在选择题任务中的实际排名因格式问题比真实水平低18位，而Gemma-3的40亿参数版本则虚高6位。这表明现有排行榜更多反映模型对格式规范的适应能力，而非实际解题水平。

针对传统评分方式的缺陷，研究团队提出"BERT法官"轻量级解决方案。该系统基于双向编码器模型，通过100万条合成标注数据进行微调训练，能够准确理解答案语义而非机械匹配格式。在苹果M1芯片笔记本电脑上，每道题的评判时间仅需200毫秒，计算成本比使用大型AI模型降低数个数量级。

实验数据显示，BERT法官在各类任务中表现优异：在ARC-Easy选择题上达到99.7%准确率，HotpotQA阅读理解题上达90.9%，GSM8K数学题上达98.8%。相比之下，参数规模仅6亿的大语言模型法官在ARC-Challenge任务中准确率不足51%，甚至低于传统规则评测的89%。

该系统的泛化能力通过多项测试验证。在完全未参与训练的CoQA、DROP等6项任务中，BERT法官仍保持高准确率；对Ministral-3等未接触过的模型家族，其评判准确率与接触过相关数据的版本差距不足1%。研究还发现，即使训练数据量减少至10万条，系统在选择题和数学题上的表现依然稳定。

为优化评测流程，研究团队设计了混合评分策略：对格式规范的答案采用传统评测，对解析失败的答案调用BERT法官补救。这种方案在保持准确率的同时，可将BERT法官的使用频率降低80%。系统在去除题目输入或面对自由格式答案时，仍能维持合理准确率，展现出较强的适应性。

不同答题策略的对比实验揭示，要求模型严格遵循"Final answer: X"格式会显著抑制其推理能力。在GSM8K数学任务中，强制格式约束导致模型表现下降30.5个百分点，而允许自由推理的"软格式"要求则能兼顾格式可解析性与推理完整性。

该研究已开源训练数据、代码和模型权重，为AI评测领域提供低成本解决方案。研究团队指出，当前方法主要适用于有明确标准答案的任务，未来计划向多语言、多模态及开放式生成任务扩展。完整技术细节可通过arXiv编号2604.09497查询。

更多>同类资讯

香港理工大学新突破：3D重建AI借多视角“自我纠错”提升精度

04-23

地平线推出整车智能全栈方案，舱驾融合或开启智能汽车新篇章

04-23

AI浪潮下短剧行业变革：霸道总裁演员转行回乡务农求生

04-23

荣耀机器人夺冠背后：战略布局与技术积淀共筑AI终端新未来

04-23

荣耀机器人“闪电”夺冠：战略深耕与技术积淀下的必然突破

04-23

蓝思科技入局普渡机器人：资本绑定与技术输出共筑机器人智造新平台

04-23

华为乾崑技术大会：10项车载核心技术发布，WEWA 2.0架构等多项创新引领未来

04-23

全新BMW 7系：以光影声韵交织，重塑旗舰豪华的沉浸式体验新境界

04-23

特斯拉第三代人形机器人年中亮相在即，2026年投产并明年投用外部场景

04-23

OpenAI意外“剧透”未来：GPT-5.5等新模型浮出水面，AI竞争再升级

04-23

FAIR plus 2026深圳机器人展启幕 2025年产业总产值突破2400亿创新高

本届展会汇聚500余家机器人全产业链上下游企业，集中展示工业机器人、人形机器人、服务机器人、具身智能及核心零部件等最新产业化成果，展会现场同步发布《深圳市机器人产业发展白皮书（2025年）》。本届展会汇聚50…

04-23

OpenAI算力扩张加速：已锁定8GW资源，2030年目标直指30GW

IT之家 4 月 23 日消息，OpenAI 官方当地时间昨日宣布，这家人工智能企业当前已锁定总功率超 8GW 的算力资源，离 2025年初设立的 10GW 目标已经不远，而到 2030 年则将达到 30G…

04-23

未来移动通信论坛发布多项成果，为6G发展铺就多维技术新路径

6G前沿技术丛书、“6G前沿技术与产业生态”报告、6G技术系列白皮书及数据集在内的未来移动通信论坛多项成果发布。丛书编委主任、中国移动研究院首席科学家易芝玲在丛书发布仪式上表示，从6G网络架构、6G通信能…

04-23

庆阳“东数西算”新篇：绿电赋能算力跃升数字引擎驱动未来

近日，由国务院国资委主办的“走进新国企聚势启新程”媒体行活动走进甘肃庆阳，来自全国十余家主流媒体的记者近距离了解这座黄土塬上的“算力之城”。中国移动甘肃公司副总经理马世科说，“十四五”时期，该公司在庆阳…

04-23

大连发力智改数转：2026年增1500座5G基站 2028年建超百个智能工厂

到2026年底，大连力争新增5G/5G-A基站1500座，加速工业网络全域覆盖；到2028年底，累计培育省级工业互联网平台47个，完成400家重点工业企业网络和数据安全分类分级管理，同步建成先进级智能工厂11…

04-23

点击查看更多 +

全站最新

三一重工(06031.HK)获摩根大通增持21.9万股

樾系标杆落地！香山樾交付，彰显越秀在京高端人居打造硬实力

海尔智家(06690.HK)获Pzena Investment Management, LLC增持180.92万股

康臣药业（01681.HK）投资者交流日：稳增长、高分红双轮驱动获青睐

华为乾崑智驾里程突破100亿公里，迟林春称10月有望超特斯拉登顶全球

当乳业进入"科技时代"，飞鹤以"原料自研、鲜活标准、全龄布局"给出答案

热门内容

本栏最新

吉利银河M9黑金智曜版焕新登场豪华智能驾控升级引领大六座SUV新风潮

短视频运营：厘清“获客”与“涨粉”逻辑，精准发力收获真客户

2026北京车展：荣威家越07概念车首发聚焦AI时代家庭出行新方案

2026梅赛德斯 - 奔驰品牌日：全新纯电GLC SUV亮相，新一代S级中国首秀

2026北京车展荣威展台新亮点家越07概念车大5座SUV定制AI出行方案

第57次报告发布：2025年我国互联网向“新”向“好” 成果斐然筑牢发展基石

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.