华东师范大学与上海创新研究院联合开展的一项研究,为人工智能推理训练开辟了新路径。这项以预印本形式发布于学术平台的研究,通过分析大型语言模型的学习特性,提出了一套名为ReNIO的权重分配机制,颠覆了传统训练中“以正确示范为主”的思维定式。实验表明,让模型重点学习自身错误推理路径,反而能显著提升其解决复杂数学问题的能力。
研究团队以数学推理任务为切入点,对比了两种截然不同的训练策略:一组模型仅接触自身正确解答的题目,另一组则专注于分析错误案例。在三个国际数学竞赛题库的测试中,错误导向训练的模型平均得分高出2.5个百分点以上。这种差异源于模型推理风格的转变——错误训练组生成的解答更长,且频繁使用“等一下”“再检查”等自我纠错词汇,展现出更强的探索性和谨慎性。
传统强化学习依赖完整解答后的结果反馈,而研究采用的在线蒸馏技术允许在推理中途介入。团队发现,模型出错通常源于特定节点的关键偏离,而非全程错误。例如在计算“9×2”时误写为“13×2”,这个错误选择会导致后续推理全面偏离正确轨道。关键在于,教师模型与学生模型在错误节点的概率预测存在显著差异,这种“学生-教师对数比”可作为实时纠错信号,无需等待最终答案即可识别高价值错误样本。
ReNIO机制通过三步实现精准纠错:首先计算每步推理中学生模型相对教师模型的偏离程度;其次筛选出对数比超过阈值的关键节点,并裁剪极端值以保持训练稳定;最后将所有关键节点的偏离值汇总为样本权重,指导训练资源分配。实验数据显示,该方法使1.7B参数模型在AIME24竞赛题上的准确率提升8.9%,7B参数模型的AIME25得分提高10%,且在代码生成任务中同样有效。
该技术的成本优势尤为突出。在短前缀训练模式下,模型仅需生成1024个词即可开始学习,其效果优于完整4096词推理的强化学习方法,且训练速度提升近6倍。进一步分析显示,ReNIO自动筛选的错误样本具有明确特征:教师模型对这些路径的下一步判断高度确定,确保纠错信号的可靠性。消融实验证实,对数比裁剪、关键节点筛选和批次归一化三个设计缺一不可,任意组件的缺失都会导致性能下降。
具体案例生动展现了ReNIO的纠错能力。在求解非负整数三元组问题时,传统在线蒸馏模型计算出603种解法,但未发现重复计算;而ReNIO训练的模型在推理中途主动质疑:“每个集合都包含(100,100,100),需减去重复计算的2次”,最终得出正确答案601。这种自我检验机制,正是复杂问题求解中至关重要的能力。
研究团队指出,当前验证主要基于中小规模模型,未来需探索其在更大参数模型中的应用潜力。这项发现不仅为AI训练提供了新范式,其核心逻辑——通过分析错误定位认知盲区——亦与人类学习规律不谋而合。对技术细节感兴趣的读者,可通过arXiv平台检索论文编号2606.23104获取完整研究内容。











