INFLY TECH团队提出DPH-RL框架：让AI训练告别“专攻偏科”困境

时间：2025-09-13 18:42:53 来源：至顶AI实验室编辑：快讯团队 IP：北京 发表评论无障碍通道

在人工智能技术飞速发展的当下，大语言模型在数学解题、代码生成等需要精准答案的领域展现出惊人能力。然而，一个看似矛盾的现象却困扰着研究人员：当采用强化学习方法训练模型时，虽然单次回答的准确率显著提升，但允许模型多次尝试回答同一问题时，整体成功率却出现明显下滑。这种"越训练越不会重答"的悖论，犹如一位学生首次答题正确率提高，却在重考时表现更差，引发了学界的广泛关注。

经过深入探究，由INFLY TECH联合复旦大学、格里菲斯大学组成的研究团队发现，问题根源在于传统强化学习训练中使用的"反向KL散度"方法。这种数学工具本应用于控制模型更新幅度，防止新策略偏离原始模型过多，却意外导致了"模式寻求"效应——模型过度聚焦于少数高概率答案，如同学生只钻研特定题型而忽视其他知识，最终造成解答方式单一化。

实验数据显示，采用传统方法训练的模型在完成强化学习后，对原本能正确解答的问题，成功率骤降至85%左右，出现典型的"灾难性遗忘"现象。这解释了为何模型在多次尝试时表现更差：首次回答可能恰好命中集中训练的少数答案，但重试时因缺乏多样性而频繁出错。

针对这一难题，研究团队提出了创新性解决方案——多样性保持混合强化学习框架（DPH-RL）。该框架的核心突破在于改用"正向KL散度"和"JS散度"等具有"质量覆盖"特性的散度方法。与传统方法强制模型聚焦不同，新技术如同建立"知识复习机制"，强制模型持续巩固原有能力，防止因过度优化而丧失解答多样性。

在具体实现上，DPH-RL框架采用独特的两阶段训练模式。预采样阶段，系统将训练数据智能划分为"完美数据集"和"探索数据集"：前者包含模型已能稳定解答的问题，每个样本保存正确答案及概率值；后者则聚焦待改进的难题，作为强化学习的重点训练对象。在线训练阶段，系统对探索数据集样本给予最大自由度，允许模型突破常规寻找创新解法；对完美数据集样本则施加散度约束，确保不遗忘已有知识。

大规模实验验证了新框架的显著优势。在数学推理和SQL查询生成任务中，采用7B至32B参数规模的不同模型测试显示，DPH-RL不仅解决了多样性崩塌问题，更在单次准确率和多次尝试成功率两个关键指标上实现同步提升。以Llama-3.1-8B模型处理SQL任务为例，传统GRPO方法的Pass@8得分下降2.6个百分点，而DPH-JS方法则提升1.7个百分点。在跨领域泛化能力测试中，传统方法性能急剧下滑，新框架却能保持稳定表现。

数学推理任务的测试结果同样具有说服力。在AIME24数学竞赛题目上，传统GRPO方法的Pass@64得分从基础模型的40.0%降至33.3%，而DPH-JS方法不仅维持原有水平，在其他数学数据集上还实现稳步提升。研究还发现，不同模型架构对强化学习的响应存在显著差异：Llama系列模型提升有限且Pass@k得分下降，而Qwen系列模型能同时提升准确率和多样性指标约20%，这为模型训练策略选择提供了重要参考。

从技术实现角度看，DPH-RL框架具有更高的计算效率。传统散度计算需维持在线参考模型，增加计算开销；新框架采用生成函数形式计算f-散度，仅需从初始策略采样，无需在线模型，大幅提升了训练效率。对不同f-散度的系统比较显示，α-散度族在正向KL和反向KL之间提供平衡点，随着α值增加，实验中表现出更高的Pass@k得分，为研究者提供了更多方法选择。

这项研究不仅带来技术创新，更重塑了对散度项作用的理解。传统观点将散度项视为被动约束工具，而DPH-RL将其重新定位为主动的多样性保持机制。理论证明显示，该框架具有增强的单调改进保证，在特定条件下，每次策略更新的改进下界强于传统TRPO分析结果，为方法的可靠性提供了数学支撑。

在实际应用层面，DPH-RL框架为构建通用推理模型开辟了新路径。当前大模型应用日益广泛，保持多样性和泛化能力至关重要。新框架的成功表明，通过精心设计的训练方法，既能提升模型性能，又能避免能力退化。这项研究也为强化学习在大模型训练中的应用提供了重要启示：直接移植经典算法可能引发意外问题，需充分考虑大模型的特殊性质。

研究团队构建的验证实验颇具巧思。他们创建能输出五种解题风格的基础模型，分别用传统方法和新方法训练。结果显示，传统方法训练的模型几乎仅输出单一风格，而采用正向KL散度训练的模型在60%情况下能生成三种以上不同风格解答。保持率和探索率分析进一步揭示，传统方法在正确样本和错误样本上的保持率均下降，导致灾难性遗忘；而KL散度约束方法通过提高保持率维持了更高得分。

Lovart为世界首个设计领域智能体，公司创始人兼CEO陈冕认为，以投放和流量为核心的移动互联网时代的增长逻辑，已经不再适应当下AI时代。他同时表示，在投资中对算力等底层基础设施持续关注，未来Token的消…

所以在这方面来说，通信和AI的结合，它的要求是极其严苛的，既需要AI本身的能力，更需要有通信专业能力，爱立信正在打造，而且已经拥有非常强大的通信和AI相结合的能力体系，同时在过去5年到现在以及将来整个自智网络…

该方案整合WPS 365在协同办公领域的数字化、智能化优势与华为公司全栈技术能力，通过AI、软件与云计算、硬件的协同创新发展，解决组织在知识资产管理、协同办公、安全合规等方面的核心需求，为组织级客户提供办公…

此前，在“Apple Intelligence”版Siri项目出现延期后，他曾在内部会议中以“挑战游泳纪录的失败尝试”作比，客观评价团队工作——既坦诚项目未达预期目标，也肯定了团队在研发过程中取得的阶段性成果…

商务人士：自研射频增强芯片C1在地铁、高铁等弱信号场景下表现稳定，配合5450mAh大电池满足全天候使用需求摄影新手：鹰眼抓拍技术降低动态摄影门槛，长焦镜头实用性优于多数同价位机型系统长跑者：MagicOS…

其中，机器人职业技能表演赛中，4个机器人轮番登场，在模拟真实工业与救援场景的高难度任务中展开角逐，完整流畅的操作与温情场景赢得观众掌声。赛事出题人、蚂蚁数科AI智能终端资深专家梁子在点评时称，该任务是希望机器…

一位年轻观众兴奋地说：“我一直喜欢动漫，这次能亲身体验AI在动漫制作中的应用，还能生成自己的动漫角色，太酷了，感觉离动漫产业更近了一步。”松延动力的负责人介绍：“我们希望通过‘小诺’，让大家看到人形机器人在教…

2025年9月12日，SK海力士宣布，已成功完成面向AI的超高性能存储器新产品HBM4的开发，并在全球首次构建了量产体系。公司在HBM4的开发过程中采用了产品稳定性方面获得市场认可的自主先进批量回流模制底部…

记者另获悉，海淀持续打造科创金融高地，设立中关村科创金融服务中心，已汇聚17家试点机构，累计为564家科技企业提供融资66.9亿元；率先构建“普惠+专属+创新”科技保险产品体系，年均风险保障超90亿元；“保…

以伟鸿基电子为例，其凭借15年行业深耕经验，从PCB设计到成品检测全流程自主完成，通过模块化工艺设计，可快速切换产品线，缩短生产周期40%以上，这在一定程度上降低了生产成本。相比一些只追求低价，而忽视质量的厂…

但国内AI产业的安全能力建设相对落后：主流AI加速器（如GPU、NPU）多为“明文计算”，模型参数与数据容易被泄漏；其次，国产芯片普遍缺乏原生的机密计算支持，而国外方案依赖特定硬件、成本高昂且供应不稳定；此外…

9月12日消息，据The Information报道，阿里巴巴和百度正在使用自主研发的芯片来训练人工智能模型。该媒体引用知情人士的话，称阿里巴巴在今年较早时开始使用其晶片训练较小的模型，使用的是Zhenwu…

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.