滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

英伟达开源框架Polar：赋能代码智能体，GRPO训练下性能显著跃升

时间：2026-05-28 17:38:22 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

英伟达研究团队近日推出开源框架Polar，为代码智能体训练领域带来突破性进展。该框架允许Codex、Claude Code、Qwen Code等现有智能体框架在不改变原有工具调用模式的前提下，无缝接入GRPO（广义相对策略优化）训练体系，有效解决了传统强化学习环境适配难题。

GRPO作为一种基于奖励信号的强化学习优化方法，通过动态调整模型策略帮助智能体在复杂决策任务中优化行为路径。在代码生成场景中，这项技术可使模型在真实工具调用和代码修改过程中持续优化表现，特别适用于代码仓库维护、浏览器自动化操作等需要多步骤协同的长流程任务。

传统强化学习框架面临的核心挑战在于执行环境的适配问题。现有智能体运行框架（如Codex CLI、Claude Code等）通常包含复杂的调用逻辑和上下文管理机制，若强行改造为标准环境接口（如env.init()、env.step()），不仅接入成本高昂，更会导致关键执行细节丢失。Polar框架通过创新性的接口定位策略，在模型API边界处构建智能体层，既保持了原有执行框架的完整性，又实现了训练信号的有效采集。

该框架的系统架构由rollout server和gateway node两大核心组件构成。rollout server承担任务调度、状态管理和回调处理功能，gateway node则负责全生命周期管理，包括执行环境初始化、轨迹数据构建、结果评估和资源回收。通过将初始化、运行和后处理流程拆分为独立工作池，配合READY缓冲区机制，系统实现了运行时预热与评估预热的并行处理，显著降低了长尾任务对GPU训练效率的影响。

在技术实现层面，Polar采用请求转发中间层设计，兼容Anthropic、OpenAI、Google等主流模型请求格式。该层在转发请求时自动记录提示词、采样Token、对数概率等关键数据，并将其重组为标准化训练轨迹。这种设计既保证了训练数据的完整性，又避免了执行框架的侵入式改造。

实验数据显示，基于Qwen3.5-4B底座模型，Polar配合GRPO训练在SWE-Bench Verified基准测试中取得显著提升：Codex框架的pass@1分数从3.8%跃升至26.4%，增幅达594.74%；Claude Code框架从29.8%提升至34.6%；Qwen Code框架从34.6%增至35.2%；Pi框架则从34.2%提高到40.4%。在训练效率方面，prefix_merging技术使单个训练步骤的更新次数从1185次降至218次，墙钟时间缩短至35.2分钟，较传统方法提速5.39倍，同时将rollout GPU利用率从20.4%提升至87.7%。

这项突破为智能体强化学习提供了新的范式，特别在需要保持执行框架完整性的工业级应用场景中展现出独特优势。通过消除传统环境适配的瓶颈，Polar框架为代码生成、自动化运维等领域的模型优化开辟了更高效的路径。

更多>同类资讯

豆包App灰测打车功能，由曹操出行提供服务

06-22

雷军再谈与董明珠打赌：只是开玩笑，没想到被激怒了

06-22

雷军回应经常直播：清者自清不管用了

06-22

雷军的真实感快过期了

06-22

家电ETF博时159730开盘微涨0.30% 格力海尔等重仓股表现分化

来源：新浪基金∞工作室 6月22日，家电ETF博时（159730）开盘涨0.30%，报1.015元。家电ETF博时（159730）重仓股方面，格力电器开盘涨0.03%，美的集团跌0.86%，三花智控跌0.13…

06-22

AI领域风云再起：谷歌Gemini技术联席负责人沙泽尔转战OpenAI引关注

06-22

苹果与LM Studio强强联手：四台Mac Studio集群让万亿参数大模型本地化流畅运行

06-22

AWS推出两项新服务及多项升级，助力AI代理加速迈向生产级应用

06-22

AI人才流动新动向：诺奖得主John Jumper离开DeepMind，投身Anthropic生命科学赛道

06-22

亚马逊AI算力布局再升级：自研Trainium芯片有望从云端走向实体市场

06-22

小米YU7GT再创佳绩：自动驾驶首破纽北纪录性能续航双兼顾

06-22

Meta前高管桑德伯格：AI时代舍十年规划，明方向怀理想迎机遇

06-22

小米Miloco 2.0开源上线：四大核心能力赋能，开启家庭主动智能新体验

06-22

国产算力芯片TOP30榜单发布：赛道细分下中诚华隆与曦望加速IPO突围

06-22

智谱市值破万亿港元！GLM-5.2模型引马斯克与唐杰公开讨论中国大模型未来

06-22

点击查看更多 +

全站最新

零跑三款C系列新车上市，以豪华配置重塑主流新能源家用SUV新格局

新款兰博基尼Revuelto SV或年内亮相赛道性能升级谍照曝光

比亚迪大唐强势登场，纯电续航亮眼，增程大车市场或迎新变局

比亚迪腾势N8L闪充版明日上市，大六座豪华SUV配刀片电池与AI座舱

23.99万起！比亚迪大唐EV入局，30万级SUV市场格局生变？

极氪以香港为起点发布9系双旗舰加速全球布局开启科技豪华新篇章

热门内容

本栏最新

海清智元6月22日港交所主板上市，首挂涨幅亮眼市值超200亿港元

黄仁勋“自然亲民”与雷军“设计亲民”：AI时代下的企业家形象之辨

喜欢合资轿车别错过！这三款车配置足舒适佳还省油，闭眼入不踩雷

暑期回国研学新选择：北上深杭科技之旅，让孩子边玩边学收获满满

科大讯飞Fika阅读器：轻薄机身搭配优质墨水屏，开启舒适便捷阅读新体验

货款纠纷“卡”企业？法官云端调解助英德两家企业“破局”重生

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.