ITBear旗下自媒体矩阵:

Meta新AI“左右互搏”:不依赖人类数据,代码自我进化时代或将来临

   时间:2025-12-30 17:45:01 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

程序员们常调侃,最痛苦的时刻不是熬夜写新代码,而是凌晨被叫醒修复自己几个月前埋下的“神级Bug”。但如今,meta公司的一项新研究让AI不仅能自己制造问题,还能在无人指导的情况下通过“自我对弈”的方式解决问题,这一突破引发了科技界的广泛关注。

12月下旬,meta与伊利诺伊大学厄巴纳-香槟分校联合发表的论文,详细介绍了一种名为SSR(Self-play SWE-RL)的全新系统。该系统的核心思路看似简单却充满颠覆性:让同一个大语言模型同时扮演“破坏者”和“修复者”的角色。传统AI编程工具,如GitHub Copilot,依赖人类编写的代码、修复过的Bug以及设计的测试用例进行学习,相当于“做老师布置的题目”。而SSR则完全反其道而行之,让AI自己出题、自己解答。

具体实现上,SSR将一个模型拆分为两个智能体:一个负责向开源项目中注入隐蔽的Bug,另一个则需根据有限线索找出并修复这些错误。两个角色共享参数,本质上是同一个“大脑”,却执行着完全相反的任务。这种设计类似于一个人用左手制造问题,再用右手解决问题,且全程不能参考答案。

为了确保生成的Bug质量,SSR引入了三重验证机制:首先,Bug必须能被弱化测试检测到;其次,不能直接暴露修复路径;最后,需通过“逆向变异测试”确认改动确实改变了程序行为。无效的Bug会被直接丢弃,绝不掺杂水分。这种机制生成的训练数据,质量远超人工标注,因为所有Bug均源自真实的Git历史记录,例如故意撤销某次修复提交或删除看似冗余实则关键的逻辑。这些案例并非教科书中的典型问题,而是工程实践中常见的“暗坑”。

在实战测试中,SSR的表现令人瞩目。研究团队在SWE-bench Verified和SWE-bench Pro两个基准平台上进行了评估。这两个平台由普林斯顿、斯坦福等机构共同构建,收录了来自Django、PyTorch等知名项目的真实Bug修复任务,被视为衡量AI编程能力的“试金石”。实验结果显示,即使完全屏蔽人类提供的任务描述和测试用例,SSR训练的智能体性能仍持续提升,最终超越了采用传统强化学习加人类数据训练的基线模型。而后者在训练几十轮后便陷入停滞,难以进一步突破。

进一步的分析揭示了SSR成功的关键:消融实验表明,若仅训练Bug注入智能体,模型会陷入“只会搞破坏”的困境;若仅提供固定Bug集让AI修复,模型则会迅速过拟合。只有让两个智能体形成闭环联动,动态调整任务难度,才能持续产生新挑战,促使模型不断进步。这种机制类似于健身时自动增加重量,始终保持“跳一跳够得着”的状态。

尽管SSR展现了强大的潜力,但其局限性同样明显。研究团队在论文中坦承,首先,系统严重依赖单元测试作为评判标准,但现实开发中许多问题(如性能瓶颈、安全漏洞、用户体验)无法通过测试脚本量化;其次,目前两个智能体使用同一模型架构,尚未探索“强弱对抗”(如用更大模型充当出题者)是否更有效;最后,训练过程极不稳定,尝试加入自然语言描述或聚焦单一代码仓库时,性能反而下降。这些限制表明,SSR距离“全自动程序员”仍有很大差距。

不过,SSR的意义远不止于技术突破。它标志着AI正在从“模仿人类”转向“自我创造学习信号”。就像AlphaGo走出人类从未想过的棋路,SSR也可能发现工程师忽略的缺陷模式或修复策略。事实上,12月下旬,智谱AI发布了“伐谋”智能体框架,支持多智能体协同演化;阿里通义实验室也宣布Qwen Code Agent进入企业内测阶段。全球顶尖团队纷纷押注“自主进化型AI”,而SSR的独特之处在于,它几乎不需要人类监督。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version