滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

浙江理工马啸与南大李武军团队携手，创新提出EMCES提升强化学习样本效率

时间：2026-07-02 14:07:53 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

强化学习近年来在游戏智能体、具身智能和大语言模型等领域取得显著突破，但在真实场景应用中仍面临关键挑战：高质量训练样本获取成本高且存在风险。为突破这一瓶颈，研究团队提出基于扩散模型的样本增强技术，通过合成数据扩充训练集。然而，现有方法生成的样本虽符合环境动态，却未必能有效提升智能体策略学习能力。

实验表明，在Hopper环境下的测试中，采用经典离线强化学习算法TD3+BC训练时，合成样本集需达到原始数据规模2.5倍以上才能显现性能提升。这一现象暴露出当前技术路径的深层矛盾：扩散模型缺乏对高价值样本的定向生成能力，导致合成数据利用率低下。针对该问题，研究团队创新性地提出情景记忆引导的可控经验合成框架（EMCES），将人类认知机制引入强化学习样本生成过程。

该框架通过三大核心组件实现技术突破：首先构建基于情景记忆的可控扩散模型，将历史经验中的高价值信息转化为生成条件；其次设计时序差分误差引导的优先采样策略，使模型聚焦于对策略学习贡献最大的样本区域；最后开发哈希编码的状态表示方法，将情景记忆的存储效率提升三个数量级。实验数据显示，在HalfCheetah等标准测试环境中，EMCES生成的样本使下游算法性能平均提升12.7%，部分任务超越原始数据训练效果。

在线强化学习场景的验证进一步证实技术优势。在quadruped-walk等六个连续控制任务中，搭载EMCES的SAC算法样本效率提升41.3%，显著优于传统扩散模型和专用在线增强方法。特别值得关注的是，哈希编码技术使情景记忆的存储开销降低8000倍，检索和构建时间缩短25.5倍，为大规模实际应用扫清计算资源障碍。

技术实现层面，研究团队构建了包含条件生成网络、价值评估模块和记忆检索系统的完整架构。通过将时序差分误差编码为生成条件，模型能够动态调整样本分布，使合成数据在状态空间中的覆盖密度与策略学习需求高度匹配。哈希编码技术则通过局部敏感哈希算法，将高维状态映射为紧凑二进制码，在保持判别性的同时实现亚线性时间复杂度的近似最近邻检索。

该成果在离线/在线强化学习场景中均展现出显著优势，其核心价值在于构建了数据生成与策略学习的闭环优化机制。通过将情景记忆作为价值信息的载体，突破了传统扩散模型被动拟合数据分布的局限，为强化学习样本增强领域开辟了新的技术路径。相关代码和实验数据已公开，将为自动驾驶、机器人控制等需要低成本数据获取的领域提供重要技术支撑。

更多>同类资讯

对话探月校长王熙乔：AI浪潮下十年探索，共绘教育新蓝图与文明新篇

07-02

AI提升科研效率却致探索萎缩：科研人究竟需要怎样的AI工具？

07-02

三星1.4nm量产时间延后同步披露2nm完整演进路径及本土合作成果

07-02

苹果明年将推新品：全新iPad Pro升级亮相入门级MacBook Pro焕新登场并计划发布基础版M7芯片

07-02

优必选CEO周剑：未来机器人或主导工作，人类应珍惜当下劳动时光

07-02

数字文旅：新兴方向崛起，旅游院校如何借势培养行业新人才？

海鳗云长期聚焦旅游大数据与文旅数字化应用，致力于将产业实践经验转化为可用于院校教学的课程资源和实训平台，通过真实行业数据、可视化分析工具和场景化实训任务，助力旅游教育对接行业数字化转型需求，帮助院校在数字文…

07-02

零跑D19：21.98万起四驱空悬加持，订单持续走高底气何在？

07-02

古尔曼：苹果2027春季更新iPad Pro机型，升级M6/M7芯片

07-02

博主实地探访法拉第未来厂房：早已人去楼空

07-02

OpenAI 发布 GeneBench-Pro 基准测试，提升 AI 模型生物学分析能力！

07-02

气象探测新利器：纳睿雷达发布“睿宸”AI 气象大模型及相控阵雷达

07-02

两分钟上手生产级语音智能体：xAI 发布 Voice Agent Builder 测试版

07-02

告别“一刀切”：Cloudflare 推出精细化 AI 流量管理，筑起网站变现护城河

07-02

家庭具身智能企业乐享科技完成近5亿元Pre-A轮融资，蚂蚁集团领投

07-02

从产业趋势到产品实践 GBASE技术云享会解码国产数据库发展新机遇

07-02

点击查看更多 +

全站最新

汽车充电桩选型全攻略：从技术参数到售后支持的多维度解析

宝马X5纯电版iX5 60 xDrive登场：续航700公里，配置升级价格“卷”出新高度

自驾旅行必备！车载汽油发电机给锂电池充电全流程指南来啦

技术赋能与人文坚守：杨君媒介理论三次跃迁下的传播范式革新

红旗天工08改款预售：智能化升级，17.98万剑指20万级纯电SUV市场

苏宁易购：从疯狂扩张到断臂求生，历经波折后终踏上回归原点之路

热门内容

本栏最新

数字文旅：新兴方向崛起，旅游院校如何借势培养行业新人才？

零跑D19：21.98万起四驱空悬加持，订单持续走高底气何在？

地平线HSD V2.0开启最大规模OTA升级以双引擎驱动端到端智驾新进化

特斯拉23年：从电动跑车到AI现实，业务版图持续拓展未来可期

安波福慕尼黑上海电子展发力：发布创新技术，赋能汽车与多元工业新未来

学而思2026旗舰点映会：AI家教新方案亮相，T6系列学习机引领教育新潮流

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.