ITBear旗下自媒体矩阵:

DeepMind新突破:AI智能体自主发现RL算法,性能超越人工设计

   时间:2025-10-28 01:53:10 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

人工智能领域长期追求的目标之一,是构建能够在复杂动态环境中自主决策、实现目标的智能体。强化学习作为实现这一目标的核心技术,虽历经数十年研究,但让智能体自主设计高效强化学习算法的难题始终未解。近日,Google DeepMind团队提出突破性方案,通过多代智能体在不同环境中的交互经验,实现强化学习规则的自主发现。

研究团队开发的DiscoRL系统在多项基准测试中展现惊人实力。在经典的Atari游戏测试中,该系统训练出的Disco57规则以13.86的四分位数平均值(IQM)超越MuZero、Dreamer等主流算法,且在运算效率上显著优于同类技术。更值得关注的是,该规则在未接触过的ProcGen二维游戏、Crafter生存挑战及NetHack迷宫探索等测试中,均展现出超越人工设计算法的泛化能力。

这项突破的核心在于双重优化机制。智能体优化层面,系统采用Kullback-Leibler散度确保训练稳定性,通过元网络生成的策略、观测预测和动作预测目标,引导智能体持续改进决策模型。元优化层面,多个智能体在不同环境中并行学习,元网络根据整体表现计算元梯度,动态调整学习规则。这种设计使算法能在有限训练步数内快速收敛,同时保持对未知环境的适应能力。

实验数据显示,算法性能与环境复杂度呈正相关。基于103个环境训练的Disco103规则,不仅在Atari测试中保持竞争力,更在Crafter生存挑战中达到人类水平表现,在推箱子任务中接近MuZero的顶尖性能。研究团队特别指出,随着训练环境数量从57个增至103个,算法在全新测试场景中的表现提升达37%,证明数据多样性对算法泛化能力的关键作用。

在效率维度,DiscoRL展现出显著优势。最优版本仅需在每个Atari游戏进行约6亿步训练(相当于57个游戏3轮实验),即可发现高性能规则。相比之下,传统人工设计方法需要数十倍实验次数和人力投入。这种效率提升源于算法对计算资源的智能利用——随着参与训练的环境数量增加,系统在未知测试场景中的表现呈指数级增长。

技术细节方面,智能体结构包含策略输出、多模态预测和价值评估模块,元网络则通过反向传播与优势行动者-评论家算法实现参数优化。特别设计的辅助损失函数,有效平衡了探索与利用的矛盾,使学习过程既稳定又高效。在NetHack挑战赛中,未使用任何领域知识的Disco57仍取得第三名,验证了算法的普适性。

这项发表于《自然》杂志的研究引发学术界广泛关注。专家指出,该成果标志着强化学习从人工设计向自动发现的范式转变,未来高级AI系统的核心算法可能完全由机器自主生成。不过,技术突破带来的伦理与社会影响同样值得深思——当算法设计权从人类转移至机器,现有监管框架和技术治理体系面临全新挑战。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version