ITBear旗下自媒体矩阵:

香港大学团队新突破:AI自主设计奖励机制,解锁智能学习新路径

   时间:2025-12-19 00:30:10 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

人工智能领域迎来一项突破性进展:一种名为“可微分进化强化学习”(DERL)的创新框架,让AI系统具备了自主设计奖励机制的能力。这项研究由跨机构团队共同完成,其核心突破在于让AI能够像人类一样,通过自我探索发现最优的激励规则,从而摆脱对人类专家设计的依赖。

传统AI训练依赖预设的奖励函数,但这种方法存在根本性矛盾:过于简单的奖励(如仅在任务完成时给予奖励)会导致学习效率低下,而复杂的奖励设计又需要大量人力投入且难以适应多样化场景。DERL框架通过构建双层学习系统解决了这一难题——上层“元优化器”负责动态调整奖励规则,下层AI策略则根据当前规则进行学习,两者形成闭环优化。

研究团队将奖励函数设计为模块化结构,由多个“原子基元”组合而成。这些基元如同乐高积木,分别承担不同功能:有的验证任务完成度,有的评估过程合理性,还有的检查输出格式。元优化器通过群体相对策略优化算法,同时测试多种奖励配置的效果,利用梯度信息指导搜索方向,最终找到最优组合方案。

实验验证覆盖机器人控制、科学模拟和数学推理三大领域。在机器人任务测试中,DERL在从未见过的复杂场景下仍保持65%的成功率,较传统方法提升一倍以上;科学实验模拟中,其表现同样领先,尤其在处理变种任务时展现出强大泛化能力;数学推理测试显示,该方法在竞赛级难题上的准确率突破60%,刷新了该领域的基准记录。

技术实现层面,研究团队开发了两种变体:标准版通过多轮迭代逐步优化奖励函数,人口变体则保留历史最优模型作为训练起点。后者在特定测试中达到98.2%的惊人准确率,证明累积学习策略的有效性。进一步分析发现,系统会自动筛选出数学性质稳定的奖励结构,避免数值爆炸等不稳定现象,这种“自然选择”机制与人类设计原则形成有趣呼应。

<

尽管DERL需要约8倍于传统方法的计算资源,但其模块化设计显著降低了基元定义难度——同一套基元可应用于不同任务,且人口变体通过复用历史模型大幅削减了训练成本。概念验证实验表明,即使使用仅12个参数的简化模型,系统仍能发现优于基础方案的奖励函数,证明其核心思想的鲁棒性。

这项研究为AI训练开辟了新范式。传统方法将人类知识编码为固定规则,而DERL让系统通过环境交互自主发现学习信号,这种元学习能力被视为通向通用人工智能的关键。研究团队指出,该方法特别适合奖励设计复杂的领域,如创意生成、长期规划等,随着算法效率提升,其应用范围将持续扩展。

当前挑战主要集中在三个方面:计算资源需求仍高于传统方法、基元选择依赖人类先验知识、极端复杂任务中的信用分配问题。不过,研究团队已提出改进方向,包括开发自适应基元库和引入分层奖励机制。实验数据显示,系统学习到的奖励函数随训练进程逐渐简化,最终形成稳定可靠的数学结构,这种演化模式为理解智能本质提供了新视角。

学术界对该成果给予高度评价。专家认为,DERL不仅在技术层面实现突破,更重要的是展示了AI系统参与自身训练过程设计的可能性。这种自参照能力可能催生新一代自主学习系统,它们能在更少人类干预的情况下掌握复杂技能,为医疗、教育、工业等领域带来变革性应用。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version