ITBear旗下自媒体矩阵:

INFLY TECH团队提出DPH-RL框架:让AI训练告别“专攻偏科”困境

   时间:2025-09-13 18:42:53 来源:至顶AI实验室编辑:快讯团队 IP:北京 发表评论无障碍通道
 

在人工智能技术飞速发展的当下,大语言模型在数学解题、代码生成等需要精准答案的领域展现出惊人能力。然而,一个看似矛盾的现象却困扰着研究人员:当采用强化学习方法训练模型时,虽然单次回答的准确率显著提升,但允许模型多次尝试回答同一问题时,整体成功率却出现明显下滑。这种"越训练越不会重答"的悖论,犹如一位学生首次答题正确率提高,却在重考时表现更差,引发了学界的广泛关注。

经过深入探究,由INFLY TECH联合复旦大学、格里菲斯大学组成的研究团队发现,问题根源在于传统强化学习训练中使用的"反向KL散度"方法。这种数学工具本应用于控制模型更新幅度,防止新策略偏离原始模型过多,却意外导致了"模式寻求"效应——模型过度聚焦于少数高概率答案,如同学生只钻研特定题型而忽视其他知识,最终造成解答方式单一化。

实验数据显示,采用传统方法训练的模型在完成强化学习后,对原本能正确解答的问题,成功率骤降至85%左右,出现典型的"灾难性遗忘"现象。这解释了为何模型在多次尝试时表现更差:首次回答可能恰好命中集中训练的少数答案,但重试时因缺乏多样性而频繁出错。

针对这一难题,研究团队提出了创新性解决方案——多样性保持混合强化学习框架(DPH-RL)。该框架的核心突破在于改用"正向KL散度"和"JS散度"等具有"质量覆盖"特性的散度方法。与传统方法强制模型聚焦不同,新技术如同建立"知识复习机制",强制模型持续巩固原有能力,防止因过度优化而丧失解答多样性。

在具体实现上,DPH-RL框架采用独特的两阶段训练模式。预采样阶段,系统将训练数据智能划分为"完美数据集"和"探索数据集":前者包含模型已能稳定解答的问题,每个样本保存正确答案及概率值;后者则聚焦待改进的难题,作为强化学习的重点训练对象。在线训练阶段,系统对探索数据集样本给予最大自由度,允许模型突破常规寻找创新解法;对完美数据集样本则施加散度约束,确保不遗忘已有知识。

大规模实验验证了新框架的显著优势。在数学推理和SQL查询生成任务中,采用7B至32B参数规模的不同模型测试显示,DPH-RL不仅解决了多样性崩塌问题,更在单次准确率和多次尝试成功率两个关键指标上实现同步提升。以Llama-3.1-8B模型处理SQL任务为例,传统GRPO方法的Pass@8得分下降2.6个百分点,而DPH-JS方法则提升1.7个百分点。在跨领域泛化能力测试中,传统方法性能急剧下滑,新框架却能保持稳定表现。

数学推理任务的测试结果同样具有说服力。在AIME24数学竞赛题目上,传统GRPO方法的Pass@64得分从基础模型的40.0%降至33.3%,而DPH-JS方法不仅维持原有水平,在其他数学数据集上还实现稳步提升。研究还发现,不同模型架构对强化学习的响应存在显著差异:Llama系列模型提升有限且Pass@k得分下降,而Qwen系列模型能同时提升准确率和多样性指标约20%,这为模型训练策略选择提供了重要参考。

从技术实现角度看,DPH-RL框架具有更高的计算效率。传统散度计算需维持在线参考模型,增加计算开销;新框架采用生成函数形式计算f-散度,仅需从初始策略采样,无需在线模型,大幅提升了训练效率。对不同f-散度的系统比较显示,α-散度族在正向KL和反向KL之间提供平衡点,随着α值增加,实验中表现出更高的Pass@k得分,为研究者提供了更多方法选择。

这项研究不仅带来技术创新,更重塑了对散度项作用的理解。传统观点将散度项视为被动约束工具,而DPH-RL将其重新定位为主动的多样性保持机制。理论证明显示,该框架具有增强的单调改进保证,在特定条件下,每次策略更新的改进下界强于传统TRPO分析结果,为方法的可靠性提供了数学支撑。

在实际应用层面,DPH-RL框架为构建通用推理模型开辟了新路径。当前大模型应用日益广泛,保持多样性和泛化能力至关重要。新框架的成功表明,通过精心设计的训练方法,既能提升模型性能,又能避免能力退化。这项研究也为强化学习在大模型训练中的应用提供了重要启示:直接移植经典算法可能引发意外问题,需充分考虑大模型的特殊性质。

研究团队构建的验证实验颇具巧思。他们创建能输出五种解题风格的基础模型,分别用传统方法和新方法训练。结果显示,传统方法训练的模型几乎仅输出单一风格,而采用正向KL散度训练的模型在60%情况下能生成三种以上不同风格解答。保持率和探索率分析进一步揭示,传统方法在正确样本和错误样本上的保持率均下降,导致灾难性遗忘;而KL散度约束方法通过提高保持率维持了更高得分。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version