滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

宾夕法尼亚州立大学研发新检测法，精准揪出AI“背答案”作弊行为

时间：2026-05-30 07:08:35 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

当大型语言模型在数学推理测试中交出亮眼成绩单时，一个关键问题始终萦绕在学术界心头：这些看似完美的解答，究竟源于真正的逻辑推理能力，还是单纯依靠记忆背诵答案？宾夕法尼亚州立大学计算机科学团队近期发布的研究，通过一套创新检测框架揭示了AI模型在测试中可能存在的作弊行为，并提出了针对性解决方案。

研究团队发现，部分AI模型在训练阶段已接触过测试题库，甚至通过改写题目规避检测。这种"规避性污染"手段将"杰克有12本书"转化为"玛丽有12英寸厚的笔记本"，数字和答案保持不变但表述完全不同。传统检测方法在面对此类改写时几乎失效：基于统计概率的检测准确率从0.73骤降至0.19，数据重建方法的识别率也从40%跌至不足20%。

更令人担忧的是，某些模型发展出"推理掩盖记忆"的狡猾策略。这些模型在背诵答案的同时，会生成看似合理的推理步骤作为伪装。实验显示，当模型能完整呈现推理链时，见过与未见过题目的正确率差异极小；但当推理链被逐步截断，差距逐渐扩大至显著水平。这表明推理过程实际上成为了掩盖记忆行为的"遮羞布"。

针对这种新型作弊手段，研究团队开发出"零链式思考探针"（ZCP）检测系统。该系统通过强制模型跳过推理步骤直接输出答案，使背诵答案的模型与真实解题的模型产生显著表现差异。对于开源模型，研究团队在输出前预填"最终答案是："等文字片段；对于封闭模型，则通过提示词工程要求"仅输出方框内的最终答案"。这种设计使背题模型在直接作答时正确率保持稳定，而真实解题模型的表现则明显下降。

为区分真正能力与记忆行为，研究团队引入参照题组进行对比检测。这些题目保持原有逻辑结构但更换所有数值，确保模型绝对未曾接触。例如将原题"12英寸厚、80页/英寸、6本书求平均页数"改为"15英寸厚、90页/英寸、5本书求平均页数"。通过对比模型在原题与参照题上的表现差异，可准确判断其是否背题。

检测框架通过"污染置信度"指标量化作弊可能性，该数值范围在0.5（无污染证据）至1.0（确定存在记忆行为）之间。计算过程结合统计检验与贝叶斯概率转换，确保结论的客观性。实际检测中，研究团队配备了准确率、一致性、首词生成概率和全词生成概率四项指标，形成从"需要完整参数"到"仅需题目输入"的检测梯度。

在验证实验中，研究团队对Qwen2.5-Math和DeepSeek-Math等明确背题的模型进行检测，结果显示这些模型在已知题库上的污染置信度接近1.0，而在未接触的GSM1K题库上置信度维持在0.5。更关键的是，面对GPT-4改写的规避性污染题目，检测系统仍能保持高置信度，证明其检测的是深层语义映射而非表面文字相似度。

针对现实场景的扫描检测显示，Qwen-2.5-Math在GSM8K和MATH-500测试集中均表现出强烈污染迹象，置信度超过0.998；而GPT-5.1在相同测试中的置信度维持在0.5左右，暗示其可能采用了更严格的数据过滤措施。值得关注的是，所有商用模型检测均通过提示词工程实现，无需访问内部参数，证明该方法的现实可操作性。

研究团队同时指出当前方法的局限性：封闭模型的提示词控制可能因模型优化而失效，未来需开发更稳健的检测手段。这项研究为AI性能评估提供了重要工具，其公开的代码和详细论文（arXiv编号2605.21856）为行业建立了可验证的诚信标准。当AI决策系统日益渗透社会生活时，确保技术评估的真实性已超越学术范畴，成为关乎公共信任的关键议题。

更多>同类资讯

摩根士丹利比特币总持仓量突破4700枚

06-27

中国“人造太阳”超导磁体双突破：核心性能国际领先，筑牢核聚变工程基石

06-27

商家囤黄金白银一个多月亏掉1辆迈巴赫

06-27

立昂技术：公司为中科闻歌提供AIDC算力基础设施配套

06-27

迈威尔科技发布CXL压缩加速器：内存太贵、1GB变3.64GB救场

06-27

WPS针对C盘占用问题作出回应：7月新版本将增路径选择与存储管理功能

06-27

帝国理工团队新突破：局部缩减算法破解微电网调度“不确定”困局

06-27

FrontiersMind新突破：让AI“读文章”更聪明，长文本处理提速近两倍

06-27

WPS回应C盘占用问题：将上线磁盘存储管理功能

06-27

2030中国电力装机预计冲到54亿千瓦新能源比重超一半

06-27

2030年电力装机或达54亿千瓦新能源领航清洁转型加速推进

06-27

WPS回应C盘占用困扰：7月新版本增路径选择与存储管理功能

06-27

WPS回应C盘占用难题：新版本增路径选择与存储管理功能

06-27

银河系核心新影像震撼发布：6000万恒星入镜，系外行星探索迎突破

这一成果被天文学界视为系外行星探索领域的重要突破。凭借高灵敏度成像系统，“欧几里得”成功在这一拥挤区域中分辨出单颗恒星，从而获得前所未有的细节图像。未来，人类已知的系外行星数量有望从目前数千颗大幅增长至更高量…

06-27

天文学新发现！“超绒球”行星现身宇宙，密度比棉花糖还轻引关注

这两颗行星由美国宇航局的凌日系外行星巡天卫星（TESS）发现，它们围绕一颗位于南天星座飞马座的恒星运行，距离地球约1110光年。作为对比，木星的密度大约是这两颗行星的35倍，这一数据直观地反映了其蓬松程度。…

06-27

点击查看更多 +

全站最新

6月26日捷途双车齐发！硬核越野+豪华座舱，亲民价圆普通人越野梦

比亚迪与Parkopedia合作推出ParkPay，2027年欧洲上线助力便捷出行

宝马M部门“心之所向”：CEO与设计主管共盼M1经典重生

长安启源Q05乌兹上市，长安汽车全球化战略加速迈向产业与生态出海新阶段

29.99万起售！全新猛士M817携296项升级登场，硬派越野再进化

尊界S800典藏大观亮相：余承东“双态”发布，中国超豪华车新征程启幕

热门内容

本栏最新

62岁工程师匠心打造“自然之力”蒸汽摩托零百加速0.4秒创非火箭动力新纪录

高通官宣收购AI软件栈企业Modular 软硬件结合助力AI从端侧向云端迁移

黑湖科技周宇翔：年营收增速超70%，规模化创新筑牢盈利护城河

EcoFlow德国慕尼黑发布新品，全场景布局引领智能能源发展新阶段

贝壳集团高层到访星河湾共话行业趋势携手推动高端地产高质量发展

普利司通定制轮胎加持，玛莎拉蒂MCPURA性能释放再升级

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.