ITBear旗下自媒体矩阵:

编程AI里程碑!GPT-5.5无源码重构程序,开启编程能力新篇章

   时间:2026-05-13 16:18:49 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在编程AI领域,一场突破性进展引发了广泛关注。一个名为ProgramBench的全新编程基准测试,此前让所有前沿AI模型集体折戟——200道编程难题,无一被完整攻克。然而,这一局面被最新发布的GPT-5.5打破,它成为首个在该基准测试中取得突破的模型,成功解出了第一道难题。

ProgramBench的测试难度远超传统编程基准。以往测试如SWE-bench或Humaneval,主要考察模型修复代码中的错误或补全函数的能力,相当于“开卷考试”或“半开卷考试”。而ProgramBench则要求模型从零开始重建程序:仅提供一个编译好的可执行文件和一份文档,不提供源代码,禁止反编译,也不允许联网查询。测试任务涵盖从简单的工具如jq、ripgrep,到复杂的系统如FFmpeg、SQLite和PHP编译器。

GPT-5.5的突破性表现体现在多个方面。在攻克首个任务——实现经典终端程序“cmatrix”的数字雨效果时,GPT-5.5展示了惊人的策略灵活性。其“high”版本使用C语言,通过10轮探索测试了40多种命令行参数组合,彻底摸清了原程序的行为模式,随后一次性写出完整代码,仅需5次微调即通过所有测试。而“xhigh”版本则选择Python,通过27步详细探索,覆盖了所有命令行路径,最终一气呵成完成实现。两个版本均以满分通过行为测试。

与GPT-5.5形成鲜明对比的是,其他模型在该测试中表现不佳。以Claude Opus 4.7为例,其“xhigh”版本在测试中消耗了10.74美元成本,调用API达178次,是GPT-5.5普通版成本的10倍,但最终仍有19个测试失败。失败原因包括对颜色解析的大小写敏感问题,以及无效颜色退出码设置错误。尽管Opus 4.7在处理缺失的ncurses头文件时展现了复杂的系统工程能力——通过检查动态库链接符号并手写头文件声明,但这一创新并未转化为更好的测试成绩。

测试数据进一步凸显了GPT-5.5的优势。在未开启高推理模式的“medium”版本中,GPT-5.5的成绩仅略优于Claude Sonnet 4.6。但切换到“xhigh”模式后,其性能实现质的飞跃:不仅成为首个解出题目的模型(通过率0.05%),还在26个任务中通过了超过95%的单元测试。在累积直方图分析中,GPT-5.5“xhigh”在平均分、中位数、≥90%通过率和≥50%通过率等所有指标上均全面领先对手。

这一突破揭示了推理算力在编程AI中的核心作用。ProgramBench的测试结果表明,同一模型在不同推理算力配置下,性能表现差异巨大。GPT-5.5从“medium”到“xhigh”的模式切换,相当于从“交白卷”到“断层碾压”的转变。这种性能跃升验证了推理算力与模型能力之间的非线性关系——智能水平不再是固定值,而是算力的函数。

目前,ProgramBench的200道测试题中仍有199道未被攻克,通过率仅为0.05%。这一超低通过率与SWE-bench等传统基准测试中AI模型高达88.7%的通过率形成鲜明对比,凸显了ProgramBench作为新一代编程基准的严格标准。随着推理算力的持续提升,编程AI正从“修复代码”向“创造程序”迈进,这一转变可能重新定义人工智能在软件开发领域的角色。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version