滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

伯克利开源AI编程冠军DeepSWE：强化学习打造，训练细节全揭秘

时间：2025-07-07 17:18:13 来源：ITBEAR编辑：快讯团队 IP：北京 发表评论无障碍通道

在人工智能编程领域，一场革命性的突破正在悄然发生。新晋AI编程冠军DeepSWE，凭借其纯强化学习的训练方式，在基准测试中取得了59%的准确率，这一成绩大幅刷新了现有技术的上限。

DeepSWE的诞生，打破了长期以来闭源模型在该领域的垄断地位。这款开源软件工程模型，基于Qwen3-32B架构，完全通过强化学习进行训练，无需依赖任何“老师模型”。这一创新性的训练方法，使得DeepSWE能够从零开始，逐步成长为一个性能卓越的智能体。

DeepSWE的训练过程充满了挑战与创新。它采用了模块化RL后训练框架rLLM，这一框架使得用户能够轻松构建一个由强化学习训练的AI助手，极大地简化了训练流程。同时，DeepSWE在R2E-Gym训练环境中进行训练，该环境为高质量可执行软件工程（SWE）任务提供了可扩展的管理方案。

在动作空间方面，R2E-Gym定义了包括执行Bash命令、搜索、文件编辑和完成/提交等四个工具。这些工具共同构成了DeepSWE在训练过程中的操作基础。而奖励模型则采用了一种稀疏的结果奖励模型（ORM），通过简单的“成功/失败”奖励信号，DeepSWE自发地学会了高级程序员才具备的复杂行为，如主动思考边缘案例和回归测试，以及根据任务复杂程度自适应调整思考深度。

算法方面，DeepSWE摒弃了传统的蒸馏方法，仅使用强化学习进行直接训练。研发人员独家改良的GRPO++算法，在之前的基础上进行了增强，进一步提升了模型的稳定性和性能。还整合了包括Clip High (DAPO)、无KL损失（DAPO）、无奖励标准差（Dr.GRPO）、长度归一化（Dr.GRPO）、一法（Loop/RLOO）、紧凑过滤和无熵损失在内的七个算法，共同构成了DeepSWE的训练配方。

其中，“紧凑过滤”算法对模型训练尤为关键。它不仅有效防止了训练过程中的奖励崩溃，还减少了每一步的过度思考，鼓励跨步骤的长篇推理，从而显著提升了模型的性能。

然而，训练过程中也遇到了不少挑战。特别是在扩展SWE-Bench环境时，由于需要同时启动大量Docker容器，一度导致Docker崩溃。为了解决这一问题，研发人员将Kubernetes支持集成到了R2E-Gym环境中，实现了容器的高效调度。同时，为每个服务器配备了高性能硬件，并提前下载了所需软件镜像，以确保训练过程的顺利进行。

在评估策略方面，DeepSWE采用了“测试时扩展（TTS）”策略，通过多方案生成和智能验证的方式，将性能推向了新的高度。通过扩展上下文长度和扩展代理部署两种方法，DeepSWE在SWE-Bench Verified上达到了59%的准确率，实现了新的技术上限。

DeepSWE的成功，离不开其背后的研发团队。项目负责人Michael Luo，加州大学伯克利分校电气工程与计算机科学系博士生，对人工智能和系统领域有着深入的研究。他带领的团队，凭借出色的研发能力和创新精神，成功打造了这款开源软件工程模型。

DeepSWE的诞生，标志着人工智能编程领域的一次重大突破。它不仅刷新了技术的上限，更为未来的软件开发和智能化转型提供了无限可能。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

小米16系列大升级：四款新机齐发，小屏Pro与Ultra Max成亮点

比较让人惊喜的是，小米 16 Pro 系列首次推出 6.3 英寸小屏版本，这将是安卓阵营首款真正意义上的「小屏 Pro 旗舰」！爆料称Pro 系列或将采用全新的横向大矩阵 Deco 设计，模组面积约占机…

07-07

华为盘古团队正式回应：盘古Pro MoE模型未抄袭阿里通义千问

智通财经APP获悉，近日，有消息指，华为盘古大模型涉嫌抄袭阿里巴巴通义千问模型。对此，7月5日，华为盘古ProMoE技术开发团队发表声明称，盘古Pro MoE开源模型是基于昇腾硬件平台开发、训练的基础大模型…

07-07

华为盘古团队正式回应：盘古Pro MoE模型未抄袭阿里通义千问

智通财经APP获悉，近日，有消息指，华为盘古大模型涉嫌抄袭阿里巴巴通义千问模型。对此，7月5日，华为盘古ProMoE技术开发团队发表声明称，盘古Pro MoE开源模型是基于昇腾硬件平台开发、训练的基础大模型…

07-07

科协揭晓30大科技难题，涵盖前沿科学、工程技术及产业技术领域

第二阶段由23位战略科学家组成终选学术委员会，从前沿性、引领性、创新性、战略性四个维度严格评议，评选出基于密码学视角的人工智能安全新理论和防护体系等10个前沿科学问题、面向通信与智能融合的智简网络技术体系等1…

07-07

小米16系列大揭秘：四款新机齐发，Ultra Max或成手机单反新标杆

比较让人惊喜的是，小米 16 Pro 系列首次推出 6.3 英寸小屏版本，这将是安卓阵营首款真正意义上的「小屏 Pro 旗舰」！爆料称Pro 系列或将采用全新的横向大矩阵 Deco 设计，模组面积约占机…

07-07

考立佳AI科技峰会与感恩答谢会：共绘教育未来，见证学子荣耀时刻

6月30日，"智鉴未来·考立佳AI数字科技研讨峰会"于郑州易元深航国际酒店盛大启幕，全国教育界专家学者与行业领袖齐聚，共探人工智能在应试教育中的创新实践；而紧随其后的高考答谢活动则以温情点燃盛夏——2025届…

07-07

ChatGPT成医疗助手，助用户发现十年未解MTHFR基因突变

07-07

皮克斯首席创意官：AI技术尚显乏味，人类动画创作价值无可替代

07-07

OpenAI新招：研究员驻留计划，低成本培育AI新星应对人才战

07-07

GPT-5即将面世：OpenAI整合多模型，打造全新功能体验

07-07

保险业联手呼吁：莫让十年AI监管真空危及消费者权益

07-07

欧盟坚守AI法案时间表，巨头面临紧迫合规挑战，2026年中正式生效

07-07

客易云数字人API：以“连接力”为核心，驱动AI时代商业生态共赢

客易云集团基于这一洞察，推出数字人API开放生态，通过“标准化接口+场景化工具链+全球化资源网络”，将数字人核心技术转化为可灵活调用的“商业连接器”，助力企业以最小成本实现用户触达、服务升级与生态共赢，重新定…

07-06

AI浪潮下，英伟达与微软谁能率先突破4万亿美元市值大关？

07-06

华为盘古大模型风波：内部员工揭露研发过程中的套壳与续训问题

但是后面据说被领导拦了下来，因为更高级别的领导（比如姚老师，以及可能熊总和查老）其实后面也知道了，但是并不管，因为通过套壳拿出好的结果，对他们也是有利的。在当时团队的核心成员的极力争取下，盘古开始了第三代模…

07-06

点击查看更多 +

全站最新

2025全球公司市值大变局：英伟达登顶，特斯拉跌出前十强

Win11 25H2新功能：用户可通过组策略轻松卸载预装Microsoft Store应用

苹果揭秘：iPhone耐用之谜，平衡设计、耐用与可修复性赢得市场

华为Mate 80系列影像大升级：50MP超大底主摄配物理可变光圈来袭

小米169元磁吸纸巾盒引热议：价格背后是品质还是品牌溢价？

红米K90系列10月来袭：电池容量逼近8000mAh，性能全面升级

热门内容

本栏最新

华为盘古团队正式回应：盘古Pro MoE模型未抄袭阿里通义千问

科协揭晓30大科技难题，涵盖前沿科学、工程技术及产业技术领域

小米16系列大揭秘：四款新机齐发，Ultra Max或成手机单反新标杆

考立佳AI科技峰会与感恩答谢会：共绘教育未来，见证学子荣耀时刻

客易云数字人API：以“连接力”为核心，驱动AI时代商业生态共赢

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.