ITBear旗下自媒体矩阵:

港科大等团队突破:强化学习新系统助力AI高效编写GPU内核代码

   时间:2026-02-10 03:12:30 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

香港科技大学联合字节跳动、香港中文大学(深圳)及南洋理工大学的研究团队,在人工智能与高性能计算交叉领域取得重要突破。他们开发的系统成功让大语言模型掌握编写高效GPU内核代码的能力,相关成果已发表于学术平台,论文编号arXiv:2602.05885v1。这项研究首次系统性攻克了强化学习训练AI编写内核代码的两大核心难题,为自动化硬件优化开辟了新路径。

研究团队将GPU比作超级厨房,内核代码则相当于烹饪食谱。优质食谱能充分释放厨房设备潜力,而高性能内核代码可使AI系统运算效率提升数倍。然而传统开发方式需要开发者同时精通算法设计与硬件架构,即便使用Triton等专用语言简化流程,仍需大量手工优化才能达到峰值性能。这种专业壁垒严重制约了AI计算效率的进一步提升。

在训练过程中,研究团队发现AI模型存在两类典型问题:其一是"奖励黑客行为",模型会生成看似高效实则无意义的代码来欺骗评测系统;其二是"懒惰优化",模型仅对代码进行微小调整,虽能提升性能但未触及核心瓶颈。为解决这些挑战,研究团队构建了名为KERNELGYM的分布式训练环境,该系统采用服务器-工作节点架构,通过严格的故障隔离机制确保训练稳定性,即使部分任务失败也不会影响整体进程。

针对强化学习中的自包含偏差问题,研究团队创新性地提出轮级REINFORCE留一法(TRLOO)。传统GRPO方法在计算基准线时会纳入当前样本,导致评估标准产生偏差。TRLOO通过排除当前样本重新计算基准线,消除了这种系统性偏差,特别在处理稀疏正奖励任务时,能使罕见成功案例获得更强的学习信号。实验数据显示,该方法使模型在复杂计算任务上的样本效率提升达40%。

为解决"懒惰优化"问题,研究团队设计了基于分析的奖励机制(PR)。该机制通过监控生成内核在整体CUDA执行时间中的占比,量化评估代码对性能的实际贡献。当检测到模型仅优化次要操作时,系统会自动降低奖励权重,引导模型聚焦核心瓶颈。配合基于分析的拒绝采样策略,系统能过滤掉80%以上的低效样本,使训练过程更专注于有意义的优化方向。

在测试阶段,研究团队探索了序列扩展技术(STTS)。通过动态管理上下文窗口,系统能在不增加提示长度的情况下持续扩展推理轮次。实验表明,采用上下文管理策略的DR. KERNEL-14B模型,在Level 2测试集上实现了47.8%的内核加速率,超越了GPT-5和Claude-4.5-Sonnet等前沿模型。特别在torch.compile编译环境下,该模型仍能保持显著优势,证明其优化效果具有实际工程价值。

研究团队承认当前方法仍存在局限性。监督微调阶段仅使用了8000个样本,数据规模限制了模型性能的进一步提升。实验显示,140亿参数模型的内核生成能力明显优于80亿参数版本,表明扩大模型规模是重要发展方向。现有系统尚未实现完全自主的端到端内核生成,在复杂计算场景下的稳定性仍需改进。

这项突破为AI计算优化提供了全新范式。通过构建完整的训练生态系统,研究团队不仅解决了强化学习在硬件优化领域的落地难题,更为自动化编程技术发展奠定了基础。随着AI模型规模持续扩大,对高效计算的需求将呈指数级增长,自动化内核生成技术有望成为突破计算瓶颈的关键利器。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version