ITBear旗下自媒体矩阵:

超越梯度下降:OpenAI翁家翌提出Heuristic Learning开启AI训练新范式

   时间:2026-05-09 12:05:52 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在人工智能领域,一项突破性实验正引发广泛关注。研究人员通过非神经网络方式,仅依靠程序代码实现了在游戏和机器人控制任务中的卓越表现。这项实验由OpenAI研究团队主导,其核心在于开发了一套能够自我迭代的启发式学习系统。

实验结果显示,在经典游戏《打砖块》中,系统通过纯代码策略达到了理论最高分864分。这一成就并非通过传统神经网络训练实现,而是依靠程序对球体运动轨迹、挡板位置等要素的精确计算和动态调整。研究人员特别指出,系统能够自动检测卡顿循环等失败模式,并通过添加随机扰动等机制实现突破。

在机器人控制领域,该系统同样展现出惊人潜力。四足机器人仿真任务中,纯Python编写的程序策略通过节律步态控制与短视窗模型规划的结合,最终获得超过6000分的成绩,达到深度强化学习算法的常见水平。另一项跑步机器人任务中,系统通过可解释的步态规则和在线规划,在5局复测中取得平均11836.7分的优异成绩。

这套系统的创新之处在于构建了完整的启发式学习闭环。与传统专家系统不同,新系统包含程序策略、状态表示、反馈入口、实验记录等多个模块,能够通过coding agent自动读取日志、修改代码、运行测试并记录实验数据。研究人员将这种学习方式定义为Heuristic Learning,其核心优势在于可解释性、样本效率高以及可避免灾难性遗忘。

实验过程中,系统展现出独特的自我进化能力。以《打砖块》为例,初始策略仅能获得387分,通过持续分析失败视频、添加回归测试和优化控制逻辑,系统逐步将得分提升至864分。这个过程涉及20余次策略迭代,每次改进都针对特定失败模式进行精准修复,最终形成包含动作探测、状态读取、落点预测等复杂机制的完整系统。

在Atari 57游戏测试中,系统面对57个不同游戏环境展现出强大适应性。通过批量运行342条代码搜索轨迹,系统在固定交互步数下的中位数得分显著优于PPO等传统深度强化学习算法。特别值得注意的是,系统在《Krull》、《DemonAttack》等游戏中取得超过人类基准的分数,而在需要长期规划的《Montezuma's Revenge》中,通过宏动作组合实现了400分的突破。

研究人员承认,当前系统仍存在局限性。在需要复杂感知或长程泛化的任务中,纯代码策略难以匹敌神经网络的表现。为此,团队提出结合两种方法的混合架构:利用启发式系统快速处理在线数据并生成可回归经验,再周期性地将这些经验内化到神经网络中。这种分工模式既发挥了代码策略的可解释性优势,又保留了神经网络的泛化能力。

实验代码和完整数据已通过开源仓库公开,包含所有游戏环境的实现细节和复现指令。研究人员特别强调,这项工作的价值不在于取代现有深度学习范式,而是为持续学习问题提供了新的工程化解决方案。通过将维护成本曲线从指数增长转变为线性增长,曾经因维护困难而被放弃的启发式规则,如今可能成为解决在线学习和持续学习问题的关键组件。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version