ITBear旗下自媒体矩阵:

英伟达开源框架Polar:赋能代码智能体,GRPO训练下性能显著跃升

   时间:2026-05-28 17:38:22 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

英伟达研究团队近日推出开源框架Polar,为代码智能体训练领域带来突破性进展。该框架允许Codex、Claude Code、Qwen Code等现有智能体框架在不改变原有工具调用模式的前提下,无缝接入GRPO(广义相对策略优化)训练体系,有效解决了传统强化学习环境适配难题。

GRPO作为一种基于奖励信号的强化学习优化方法,通过动态调整模型策略帮助智能体在复杂决策任务中优化行为路径。在代码生成场景中,这项技术可使模型在真实工具调用和代码修改过程中持续优化表现,特别适用于代码仓库维护、浏览器自动化操作等需要多步骤协同的长流程任务。

传统强化学习框架面临的核心挑战在于执行环境的适配问题。现有智能体运行框架(如Codex CLI、Claude Code等)通常包含复杂的调用逻辑和上下文管理机制,若强行改造为标准环境接口(如env.init()、env.step()),不仅接入成本高昂,更会导致关键执行细节丢失。Polar框架通过创新性的接口定位策略,在模型API边界处构建智能体层,既保持了原有执行框架的完整性,又实现了训练信号的有效采集。

该框架的系统架构由rollout server和gateway node两大核心组件构成。rollout server承担任务调度、状态管理和回调处理功能,gateway node则负责全生命周期管理,包括执行环境初始化、轨迹数据构建、结果评估和资源回收。通过将初始化、运行和后处理流程拆分为独立工作池,配合READY缓冲区机制,系统实现了运行时预热与评估预热的并行处理,显著降低了长尾任务对GPU训练效率的影响。

在技术实现层面,Polar采用请求转发中间层设计,兼容Anthropic、OpenAI、Google等主流模型请求格式。该层在转发请求时自动记录提示词、采样Token、对数概率等关键数据,并将其重组为标准化训练轨迹。这种设计既保证了训练数据的完整性,又避免了执行框架的侵入式改造。

实验数据显示,基于Qwen3.5-4B底座模型,Polar配合GRPO训练在SWE-Bench Verified基准测试中取得显著提升:Codex框架的pass@1分数从3.8%跃升至26.4%,增幅达594.74%;Claude Code框架从29.8%提升至34.6%;Qwen Code框架从34.6%增至35.2%;Pi框架则从34.2%提高到40.4%。在训练效率方面,prefix_merging技术使单个训练步骤的更新次数从1185次降至218次,墙钟时间缩短至35.2分钟,较传统方法提速5.39倍,同时将rollout GPU利用率从20.4%提升至87.7%。

这项突破为智能体强化学习提供了新的范式,特别在需要保持执行框架完整性的工业级应用场景中展现出独特优势。通过消除传统环境适配的瓶颈,Polar框架为代码生成、自动化运维等领域的模型优化开辟了更高效的路径。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version