滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

英伟达开源Polar框架：助力代码智能体训练，SWE-Bench分数显著提升

时间：2026-05-28 10:57:41 来源：ITBEAR编辑：快讯 IP：北京 发表评论无障碍通道

英伟达研究团队近日发布了一款名为Polar的开源框架，为现有智能体框架接入GRPO（广义相对策略优化）训练提供了创新解决方案。该框架能够在不改变原有工具调用、上下文管理和补丁提交方式的前提下，让Codex、Claude Code、Qwen Code等代码智能体框架顺利接入GRPO训练体系，为强化学习在代码生成领域的应用开辟了新路径。

GRPO作为一种面向强化学习的优化方法，通过奖励信号动态调整模型策略，使模型在多步决策任务中逐步优化动作选择。在代码智能体训练场景中，GRPO能够帮助模型在真实的工具调用和补丁提交流程中持续改进表现。随着智能体强化学习从单步任务向长流程任务演进，代码仓库修改、浏览器操作和操作系统交互等复杂任务对现有框架提出了更高要求。这类任务通常依赖现成执行框架，涉及多轮调用、工具使用、上下文压缩和子智能体协作等复杂环节。

传统方法在将这些框架接入强化学习环境时面临两大挑战：一是执行框架难以直接改写为标准环境接口，二是强行接入可能导致关键训练信号丢失。Polar框架通过创新设计规避了这些问题，其核心思路是在模型API边界处部署智能体，而非对原有执行框架进行大规模改造。这种设计保留了Codex CLI、Claude Code等智能体运行外壳的原始逻辑，避免了传统强化学习基础设施要求的环境接口改写，从而降低了接入成本并保留了原生执行细节。

在技术实现上，Polar将智能体与模型之间的接口作为训练边界，在执行框架和推理服务器之间插入模型智能体。该框架兼容Anthropic、OpenAI、Google等主流风格的API请求，能够在转发请求时自动记录提示词、采样Token、对数概率和响应内容，并将这些信息重组为可供训练器使用的轨迹数据。系统架构方面，Polar由rollout server和gateway node两大组件构成：前者负责任务提交、会话调度、状态持久化和回调接收；后者则管理会话执行的全生命周期，包括运行时启动、执行框架准备、轨迹构建、结果评测和资源回收。

为提升系统效率，Polar将初始化、运行中和后处理流程拆分到独立工作池，并设置READY缓冲区实现运行时预热和评测预热的并行执行。这种设计显著减少了长尾任务对GPU训练的阻塞效应。实验数据显示，基于Qwen3.5-4B底座模型，在Codex、Claude Code、Qwen Code和Pi四种代码执行框架上，Polar配合GRPO训练后，SWE-Bench Verified的pass@1分数均获得显著提升：Codex从3.8%跃升至26.4%（增长594.74%），Claude Code从29.8%提升至34.6%，Qwen Code从34.6%提高到35.2%，Pi框架则从34.2%增至40.4%。

在效率优化方面，Polar的prefix_merging技术相比per_request方法表现出色。在三个训练步骤中，更新次数从1185次降至218次，墙钟时间从189.5分钟缩短至35.2分钟，加速比达到5.39倍。同时，rollout GPU的平均利用率从20.4%大幅提升至87.7%，显著提高了计算资源利用效率。这些突破为代码智能体的规模化训练提供了新的技术范式。

更多>同类资讯

百度文心升级：AI从“展示能力”迈向“交付结果”新征程开启

06-27

反内卷浪潮下，七大快递巨头国内“洗牌”与海外“突围”战况如何？

06-27

无界动力再获超2亿美元天使轮融资全球订单近亿创始人履历亮眼

06-27

沃尔玛“沃集鲜”上新不断，平价健康新品成年轻人购物新宠

06-27

京东方：5000亿资本投入后，借玻璃基板能否开启新股价篇章？

06-27

佳和影城2026年多部影片热映中四渡赤水玩具总动员等场次时间一览

给阿嬷的情书丨四月三十日他本着军人的高度警惕和公安战士的责任感，硬是与冯搭做邻居，穷尽一生历尽磨难，进行了一场近四十年无怨无悔的追踪。在管理店铺日渐萎缩的财务时，克拉克向电工问起那异常高昂的电费和灯光总是闪…

06-27

太空“占座战”激战正酣：美领跑俄守核，中国加速追赶成亮点

06-27

计算机安全领域顶尖学者宋晓冬携团队加盟Meta，助力AI安全新发展

本周四，UC Berkeley 计算机教授 Dawn Song（宋晓冬）宣布加入 Meta 超级智能实验室 SuperintelligenceLabs，担任 AI 研究副总裁。宋晓冬的研究不仅覆盖传统的…

06-27

电脑价格疯涨，刚需、入门、观望人群该如何理性应对？

06-27

汽水音乐&抖音生态升级：从爆款孵化到构建可持续音乐成长生态

06-27

OpenAI携手博通推出首款AI芯片Jalapeño：AI加速设计，9个月高效流片

如今 AI 的算力需求越来越大，各家公司对于芯片的需求也日益迫切，Brockman 表示 OpenAI「无法获得足够快的算力」，博通首席执行官陈福阳也支持这一观点，称该公司六家客户的计算需求「简直是永无止境…

06-27

500亿到账后，DeepSeek专注技术深挖，商业化暂未成首要目标

06-27

上海整治AI乱象成果显著：清理违规信息487万条下架1.4万智能体

06-27

东航首秀中国-亚欧博览会，六大展台尽显创新魅力与丝路新程担当

06-27

vivo X Fold6重塑折叠屏体验：AI多任务协同开启移动办公新范式

06-27

点击查看更多 +

全站最新

佳和影城2026年多部影片热映中四渡赤水玩具总动员等场次时间一览

Avinox新一代电助力系统登场，超60家品牌携手，开启智能高效骑行新篇章

华为杨扬MWC上海演讲：AI赋能产品服务驱动通信业Token经营新跃升

华为赵振龙：AI驱动自智网络双核心演进，无线网络智能体引领行业新未来

郑州产业互联网定制平台：柔性服务全覆盖，满足多元物料定制新需求

全固态电池来袭：续航充电双突破，量产普及在望，出行焦虑将成历史？

热门内容

本栏最新

佳和影城2026年多部影片热映中四渡赤水玩具总动员等场次时间一览

全固态电池来袭：续航充电双突破，量产普及在望，出行焦虑将成历史？

openJiuwen亮相开放原子开源生态大会携手伙伴共筑AgentOS繁荣生态新未来

本田上市69年首现年度亏损：2025财年净亏4239亿，电动化战略致巨亏后调整方向

高通骁龙8E6系列9月登场！2nm工艺加持小米18系列两款机型将首发

小米18 Pro规格疑曝光：双2亿像素主摄加持骁龙8 Elite Gen 6芯片或成亮点

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.