近期,国际科技界对阿里巴巴推出的Qwen2.5模型在数学推理能力上的表现展开了深入讨论。一项最新研究报告指出,Qwen2.5在多项数学基准测试中展现出的卓越推理能力,可能并非真正基于推理,而是更多地依赖于对训练数据的记忆。
研究的核心发现表明,当Qwen2.5面对未在训练期间接触过的“干净”基准测试时,其性能显著下滑。这一发现暗示,模型在之前测试中取得的良好成绩,很可能是因为已经间接或直接接触过这些数据。
为了验证这一假设,研究团队设计了一项独特的实验:他们仅向Qwen2.5-Math-7B模型展示了MATH500基准测试的前60%题目,要求其预测剩余的40%。结果出乎意料,Qwen2.5-Math-7B以54.6%的准确率成功补全了缺失部分,相比之下,Llama3.1-8B的准确率仅为3.8%。这一巨大差异强烈提示Qwen2.5在训练过程中可能已“预习”过这些问题。
随后,研究团队使用LiveMathBench这一在Qwen2.5发布后创建的“干净”基准测试进行评估。由于LiveMathBench的数据集在Qwen2.5训练后才出现,因此模型不可能接触过。在这一全新数据集上,Qwen2.5的表现急剧下滑,完成率几乎为零,准确率也仅剩2%,与Llama模型的表现相当。
研究进一步指出,Qwen2.5可能在大型在线数据集上进行了预训练,这些数据集中包含了基准问题及其解决方案,如GitHub上的代码库。因此,即使训练过程中接收到错误的奖励信号,模型也可能因事先接触过这些数据而在MATH-500上表现优异。
为进一步探究这一问题,研究团队还进行了其他实验。当响应模板发生变化时,Qwen2.5在MATH-500上的性能大幅下降,而Llama-3.1-8B则几乎不受影响。这一发现进一步支持了Qwen2.5对特定数据模式的依赖。
研究还强调了基准测试在评估AI模型中的重要性。受污染的基准测试可能导致对AI进展的误解。因此,未来研究应依赖于干净、未受污染的基准,并评估多个模型系列,以获得更可靠的结果。
这一系列研究结果再次突显了在大型语言模型中区分真实推理与记忆的难度,以及清晰、严谨的评估方法对于可靠AI研究的重要性。此前已有类似案例表明,基准测试可能被操纵,从而影响评估结果的准确性。