ITBear旗下自媒体矩阵:

清华团队突破强化学习困境:RACS算法实现安全与性能双赢 14项任务登顶SOTA

   时间:2026-02-16 23:51:33 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在自动驾驶与机器人控制等高风险领域,强化学习技术正面临关键挑战:如何在保证绝对安全的前提下实现高效控制。清华大学研究团队近期提出创新算法,通过引入"主动探索危险边界"机制,成功破解了安全强化学习领域长期存在的核心矛盾,在权威测试平台刷新多项性能纪录。

传统安全强化学习算法普遍采用"被动防御"策略,通过严格限制智能体行动范围来避免违规。但研究团队发现,这种过度保守的设计反而导致系统陷入恶性循环——随着安全约束加强,违规样本数量急剧减少,使得系统对危险边界的认知变得模糊。实验数据显示,当违规率降至0.1%以下时,可行性函数的估计误差会呈指数级增长,最终引发安全性崩塌。

针对这一困境,研究团队开发出双策略架构的RACS算法。该系统包含两个协同工作的智能体:"执行者"负责在安全范围内优化任务表现,"探险者"则专门触碰安全边界以收集关键数据。这种设计巧妙利用对抗性探索机制,在保持总采样量不变的情况下,使违规样本占比提升10-100倍,显著改善了系统对危险状态的判断精度。

技术实现层面,研究团队采用重要性采样技术解决双策略数据分布差异问题,并通过KL散度约束确保训练稳定性。在Safety-Gymnasium基准测试中,该算法在14项复杂任务中同时实现安全指标与任务性能的双重领先。特别是在高维度HumanoidVelocity任务中,RACS不仅达成零违规,其任务回报率较传统方法提升23%,推箱子导航任务的成功率更是提高41%。

深入分析显示,算法性能提升源于三个关键改进:危险状态采样量增加一个数量级、可行性函数估计误差降低82%、风险低估频率减少94%。这意味着系统能更准确识别潜在危险,从根本上避免了因认知模糊导致的意外违规。在HalfCheetahVelocity等任务中,该算法甚至实现了连续百万步零违规的突破性表现。

这项研究为安全强化学习的实际应用开辟了新路径。通过将"主动认知危险"理念融入算法设计,有效解决了高风险场景中安全与性能的平衡难题。相关代码已在开源平台公开,其双策略架构与对抗性探索机制为工业界提供了可直接借鉴的技术方案,特别是在自动驾驶决策系统开发中具有重要应用价值。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version