ITBear旗下自媒体矩阵:

英伟达开源Polar框架:助力代码智能体训练,SWE-Bench分数显著提升

   时间:2026-05-28 10:57:41 来源:ITBEAR编辑:快讯 IP:北京 发表评论无障碍通道
 

英伟达研究团队近日发布了一款名为Polar的开源框架,为现有智能体框架接入GRPO(广义相对策略优化)训练提供了创新解决方案。该框架能够在不改变原有工具调用、上下文管理和补丁提交方式的前提下,让Codex、Claude Code、Qwen Code等代码智能体框架顺利接入GRPO训练体系,为强化学习在代码生成领域的应用开辟了新路径。

GRPO作为一种面向强化学习的优化方法,通过奖励信号动态调整模型策略,使模型在多步决策任务中逐步优化动作选择。在代码智能体训练场景中,GRPO能够帮助模型在真实的工具调用和补丁提交流程中持续改进表现。随着智能体强化学习从单步任务向长流程任务演进,代码仓库修改、浏览器操作和操作系统交互等复杂任务对现有框架提出了更高要求。这类任务通常依赖现成执行框架,涉及多轮调用、工具使用、上下文压缩和子智能体协作等复杂环节。

传统方法在将这些框架接入强化学习环境时面临两大挑战:一是执行框架难以直接改写为标准环境接口,二是强行接入可能导致关键训练信号丢失。Polar框架通过创新设计规避了这些问题,其核心思路是在模型API边界处部署智能体,而非对原有执行框架进行大规模改造。这种设计保留了Codex CLI、Claude Code等智能体运行外壳的原始逻辑,避免了传统强化学习基础设施要求的环境接口改写,从而降低了接入成本并保留了原生执行细节。

在技术实现上,Polar将智能体与模型之间的接口作为训练边界,在执行框架和推理服务器之间插入模型智能体。该框架兼容Anthropic、OpenAI、Google等主流风格的API请求,能够在转发请求时自动记录提示词、采样Token、对数概率和响应内容,并将这些信息重组为可供训练器使用的轨迹数据。系统架构方面,Polar由rollout server和gateway node两大组件构成:前者负责任务提交、会话调度、状态持久化和回调接收;后者则管理会话执行的全生命周期,包括运行时启动、执行框架准备、轨迹构建、结果评测和资源回收。

为提升系统效率,Polar将初始化、运行中和后处理流程拆分到独立工作池,并设置READY缓冲区实现运行时预热和评测预热的并行执行。这种设计显著减少了长尾任务对GPU训练的阻塞效应。实验数据显示,基于Qwen3.5-4B底座模型,在Codex、Claude Code、Qwen Code和Pi四种代码执行框架上,Polar配合GRPO训练后,SWE-Bench Verified的pass@1分数均获得显著提升:Codex从3.8%跃升至26.4%(增长594.74%),Claude Code从29.8%提升至34.6%,Qwen Code从34.6%提高到35.2%,Pi框架则从34.2%增至40.4%。

在效率优化方面,Polar的prefix_merging技术相比per_request方法表现出色。在三个训练步骤中,更新次数从1185次降至218次,墙钟时间从189.5分钟缩短至35.2分钟,加速比达到5.39倍。同时,rollout GPU的平均利用率从20.4%大幅提升至87.7%,显著提高了计算资源利用效率。这些突破为代码智能体的规模化训练提供了新的技术范式。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version