滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

超越梯度下降：OpenAI翁家翌提出Heuristic Learning开启AI训练新范式

时间：2026-05-09 12:05:52 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能领域，一项突破性实验正引发广泛关注。研究人员通过非神经网络方式，仅依靠程序代码实现了在游戏和机器人控制任务中的卓越表现。这项实验由OpenAI研究团队主导，其核心在于开发了一套能够自我迭代的启发式学习系统。

实验结果显示，在经典游戏《打砖块》中，系统通过纯代码策略达到了理论最高分864分。这一成就并非通过传统神经网络训练实现，而是依靠程序对球体运动轨迹、挡板位置等要素的精确计算和动态调整。研究人员特别指出，系统能够自动检测卡顿循环等失败模式，并通过添加随机扰动等机制实现突破。

在机器人控制领域，该系统同样展现出惊人潜力。四足机器人仿真任务中，纯Python编写的程序策略通过节律步态控制与短视窗模型规划的结合，最终获得超过6000分的成绩，达到深度强化学习算法的常见水平。另一项跑步机器人任务中，系统通过可解释的步态规则和在线规划，在5局复测中取得平均11836.7分的优异成绩。

这套系统的创新之处在于构建了完整的启发式学习闭环。与传统专家系统不同，新系统包含程序策略、状态表示、反馈入口、实验记录等多个模块，能够通过coding agent自动读取日志、修改代码、运行测试并记录实验数据。研究人员将这种学习方式定义为Heuristic Learning，其核心优势在于可解释性、样本效率高以及可避免灾难性遗忘。

实验过程中，系统展现出独特的自我进化能力。以《打砖块》为例，初始策略仅能获得387分，通过持续分析失败视频、添加回归测试和优化控制逻辑，系统逐步将得分提升至864分。这个过程涉及20余次策略迭代，每次改进都针对特定失败模式进行精准修复，最终形成包含动作探测、状态读取、落点预测等复杂机制的完整系统。

在Atari 57游戏测试中，系统面对57个不同游戏环境展现出强大适应性。通过批量运行342条代码搜索轨迹，系统在固定交互步数下的中位数得分显著优于PPO等传统深度强化学习算法。特别值得注意的是，系统在《Krull》、《DemonAttack》等游戏中取得超过人类基准的分数，而在需要长期规划的《Montezuma's Revenge》中，通过宏动作组合实现了400分的突破。

研究人员承认，当前系统仍存在局限性。在需要复杂感知或长程泛化的任务中，纯代码策略难以匹敌神经网络的表现。为此，团队提出结合两种方法的混合架构：利用启发式系统快速处理在线数据并生成可回归经验，再周期性地将这些经验内化到神经网络中。这种分工模式既发挥了代码策略的可解释性优势，又保留了神经网络的泛化能力。

实验代码和完整数据已通过开源仓库公开，包含所有游戏环境的实现细节和复现指令。研究人员特别强调，这项工作的价值不在于取代现有深度学习范式，而是为持续学习问题提供了新的工程化解决方案。通过将维护成本曲线从指数增长转变为线性增长，曾经因维护困难而被放弃的启发式规则，如今可能成为解决在线学习和持续学习问题的关键组件。

更多>同类资讯

DeepSeek“识图模式”大范围上线，以创新框架开启图文交互新体验

05-09

苹果首款AI版AirPods或9月亮相，摄像头成亮点，量产前却遇隐私合规挑战

05-09

市科技馆携手青少年宫开展航天科普活动点燃青少年航天梦与科学探索热情

05-09

一季度31省份经济数据出炉：新质生产力崛起多地内需回暖稳开局

05-09

DeepSeek拟募资500亿创AI领域融资纪录多方资本低调磋商中

05-09

兰州交大聚焦机器人领域：构建育人生态助力区域新质生产力腾飞

05-09

绿能引擎驱动新材料与数字经济齐飞内蒙古科创成果闪耀北京科博会

05-09

稳石机器人完成B轮融资携手锦富资本加速AMR领域布局

05-09

我国日均Token调用量激增超十万倍，算力租赁市场前景持续向好

05-09

中国移动与火山引擎共推机密模型服务，引领AI产业迈向新高度

05-09

2025互联网保险新图景：意外险受捧、线上渠道崛起、AI应用引关注

05-09

黄仁勋谈AI革命：中美竞赛高风险，工程师责任与机遇并存

05-09

中国移动发布“九天全栈协同创新行动” 携手伙伴构建智能服务新生态

05-09

从1G到6G：移动通信进化之路，3GPP NTN如何推动空天地海一体化？

05-09

2026北京车展东风汽车闪耀登场：“东方风起2030”领航，共赴智慧绿色新程

05-09

点击查看更多 +

全站最新

用AI轻松搞定营销海报！秒出设计工具助你快速吸引客户

中国移动与火山引擎共推机密模型服务，引领AI产业迈向新高度

2025互联网保险新图景：意外险受捧、线上渠道崛起、AI应用引关注

小米再放大招！“寻天”增程SUV露营神器来袭，能否成市场新宠？

郑州比亚迪招6000人啦！初中学历可报，还有汉威、讯飞高薪岗等你来

雷军再出奇招！小米子品牌“寻天”增程SUV曝光，升顶设计或成最强奶爸车

热门内容

本栏最新

中国移动与火山引擎共推机密模型服务，引领AI产业迈向新高度

2025互联网保险新图景：意外险受捧、线上渠道崛起、AI应用引关注

2026北京车展东风汽车闪耀登场：“东方风起2030”领航，共赴智慧绿色新程

广汽丰田2026款铂智3X焕新登场配置升级价格亲民智驾体验再升级

2025互联网保险新趋势：传统险企线上崛起，AI成购险决策新助力

奥迪E7X成都开启预售，“入门即满配”打造纯电SUV新标杆

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.