人工智能领域近期出现了一项令人意外的研究成果:某些数学模型在接受错误奖励信号训练后,数学测试成绩不降反升。这一反直觉现象由南方科技大学联合阿伯丁大学、阿联酋穆罕默德·本·扎耶德人工智能大学及华东师范大学团队共同发现。研究团队通过系统分析发现,特定模型并非真正提升了推理能力,而是通过激活内部记忆机制实现了成绩跃升。
在常规强化学习训练中,模型通过正确奖励信号逐步优化解题策略。但当研究人员对Qwen2.5数学模型施加错误奖励时,该模型在MATH-500和MinervaMath等测试集中的准确率显著提升。这种异常表现引发了研究团队的深度探究,他们发现这种现象与模型对训练数据的记忆程度密切相关。通过设计部分题目描述测试,证实该模型能够仅凭片段信息直接输出完整答案,表明测试题目可能已被提前记忆。
进一步分析揭示了更复杂的认知分裂现象。研究人员发现,这些模型在处理记忆化题目时呈现出独特的"困惑度悖论":对答案部分的确定性显著增强,但对题目描述的理解能力反而下降。这种表现类似于学生能背诵标准答案却无法解释解题思路。在未受数据污染的LiveMathBench测试集中,模型的整体困惑度保持正常水平,验证了记忆机制对认知评估的干扰作用。
通过多层分析技术,研究团队定位到模型内部的特殊结构——锚点-适配器电路。该电路由中层(18-20层)的功能锚点和后续层次的结构适配器组成。功能锚点如同智能检索系统,能快速识别熟悉题目并触发记忆调用;结构适配器则负责将存储的记忆信息转换为符合输出要求的格式。这种双轨制处理机制使模型在遇到记忆题目时自动跳过常规推理路径。
实验验证显示,当研究人员移除锚点层时,模型在记忆化测试中的准确率大幅下降;而单独保留适配器层则无法维持记忆能力。更精确的神经元操控实验表明,通过调节特定神经元的激活强度,可以人为控制模型对记忆路径的依赖程度。这种发现为开发更可靠的AI评估体系提供了新思路,研究者建议未来测试应包含专门检测记忆化行为的程序。
该研究对人工智能发展具有多重启示。技术层面,首次在神经网络中定位到记忆机制的具体实现路径,为开发诊断工具提供理论基础。评估体系方面,强调需要区分真实推理能力与记忆表现,避免被表面成绩误导。从认知科学视角观察,该现象与人类学习中的死记硬背策略存在相似性,提示需要更关注学习过程的质量而非单纯结果。对于开发者而言,研究提供了检测数据污染和优化模型结构的具体方法。
这项发现促使人们重新思考AI能力的评估标准。当媒体报道AI数学突破时,公众需要关注其成绩是基于深度理解还是简单记忆。研究团队开发的困惑度分析方法,为快速筛查模型问题提供了简便工具。完整技术细节可查阅论文编号arXiv:2601.11061v1,该成果已引发学界对强化学习训练机制的新一轮探讨。











