ITBear旗下自媒体矩阵:

浙江理工马啸与南大李武军团队携手,创新提出EMCES提升强化学习样本效率

   时间:2026-07-02 14:07:53 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

强化学习近年来在游戏智能体、具身智能和大语言模型等领域取得显著突破,但在真实场景应用中仍面临关键挑战:高质量训练样本获取成本高且存在风险。为突破这一瓶颈,研究团队提出基于扩散模型的样本增强技术,通过合成数据扩充训练集。然而,现有方法生成的样本虽符合环境动态,却未必能有效提升智能体策略学习能力。

实验表明,在Hopper环境下的测试中,采用经典离线强化学习算法TD3+BC训练时,合成样本集需达到原始数据规模2.5倍以上才能显现性能提升。这一现象暴露出当前技术路径的深层矛盾:扩散模型缺乏对高价值样本的定向生成能力,导致合成数据利用率低下。针对该问题,研究团队创新性地提出情景记忆引导的可控经验合成框架(EMCES),将人类认知机制引入强化学习样本生成过程。

该框架通过三大核心组件实现技术突破:首先构建基于情景记忆的可控扩散模型,将历史经验中的高价值信息转化为生成条件;其次设计时序差分误差引导的优先采样策略,使模型聚焦于对策略学习贡献最大的样本区域;最后开发哈希编码的状态表示方法,将情景记忆的存储效率提升三个数量级。实验数据显示,在HalfCheetah等标准测试环境中,EMCES生成的样本使下游算法性能平均提升12.7%,部分任务超越原始数据训练效果。

在线强化学习场景的验证进一步证实技术优势。在quadruped-walk等六个连续控制任务中,搭载EMCES的SAC算法样本效率提升41.3%,显著优于传统扩散模型和专用在线增强方法。特别值得关注的是,哈希编码技术使情景记忆的存储开销降低8000倍,检索和构建时间缩短25.5倍,为大规模实际应用扫清计算资源障碍。

技术实现层面,研究团队构建了包含条件生成网络、价值评估模块和记忆检索系统的完整架构。通过将时序差分误差编码为生成条件,模型能够动态调整样本分布,使合成数据在状态空间中的覆盖密度与策略学习需求高度匹配。哈希编码技术则通过局部敏感哈希算法,将高维状态映射为紧凑二进制码,在保持判别性的同时实现亚线性时间复杂度的近似最近邻检索。

该成果在离线/在线强化学习场景中均展现出显著优势,其核心价值在于构建了数据生成与策略学习的闭环优化机制。通过将情景记忆作为价值信息的载体,突破了传统扩散模型被动拟合数据分布的局限,为强化学习样本增强领域开辟了新的技术路径。相关代码和实验数据已公开,将为自动驾驶、机器人控制等需要低成本数据获取的领域提供重要技术支撑。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version