滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

编程AI里程碑！GPT-5.5无源码重构程序，开启编程能力新篇章

时间：2026-05-13 16:18:49 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在编程AI领域，一场突破性进展引发了广泛关注。一个名为ProgramBench的全新编程基准测试，此前让所有前沿AI模型集体折戟——200道编程难题，无一被完整攻克。然而，这一局面被最新发布的GPT-5.5打破，它成为首个在该基准测试中取得突破的模型，成功解出了第一道难题。

ProgramBench的测试难度远超传统编程基准。以往测试如SWE-bench或Humaneval，主要考察模型修复代码中的错误或补全函数的能力，相当于“开卷考试”或“半开卷考试”。而ProgramBench则要求模型从零开始重建程序：仅提供一个编译好的可执行文件和一份文档，不提供源代码，禁止反编译，也不允许联网查询。测试任务涵盖从简单的工具如jq、ripgrep，到复杂的系统如FFmpeg、SQLite和PHP编译器。

GPT-5.5的突破性表现体现在多个方面。在攻克首个任务——实现经典终端程序“cmatrix”的数字雨效果时，GPT-5.5展示了惊人的策略灵活性。其“high”版本使用C语言，通过10轮探索测试了40多种命令行参数组合，彻底摸清了原程序的行为模式，随后一次性写出完整代码，仅需5次微调即通过所有测试。而“xhigh”版本则选择Python，通过27步详细探索，覆盖了所有命令行路径，最终一气呵成完成实现。两个版本均以满分通过行为测试。

与GPT-5.5形成鲜明对比的是，其他模型在该测试中表现不佳。以Claude Opus 4.7为例，其“xhigh”版本在测试中消耗了10.74美元成本，调用API达178次，是GPT-5.5普通版成本的10倍，但最终仍有19个测试失败。失败原因包括对颜色解析的大小写敏感问题，以及无效颜色退出码设置错误。尽管Opus 4.7在处理缺失的ncurses头文件时展现了复杂的系统工程能力——通过检查动态库链接符号并手写头文件声明，但这一创新并未转化为更好的测试成绩。

测试数据进一步凸显了GPT-5.5的优势。在未开启高推理模式的“medium”版本中，GPT-5.5的成绩仅略优于Claude Sonnet 4.6。但切换到“xhigh”模式后，其性能实现质的飞跃：不仅成为首个解出题目的模型（通过率0.05%），还在26个任务中通过了超过95%的单元测试。在累积直方图分析中，GPT-5.5“xhigh”在平均分、中位数、≥90%通过率和≥50%通过率等所有指标上均全面领先对手。

这一突破揭示了推理算力在编程AI中的核心作用。ProgramBench的测试结果表明，同一模型在不同推理算力配置下，性能表现差异巨大。GPT-5.5从“medium”到“xhigh”的模式切换，相当于从“交白卷”到“断层碾压”的转变。这种性能跃升验证了推理算力与模型能力之间的非线性关系——智能水平不再是固定值，而是算力的函数。

目前，ProgramBench的200道测试题中仍有199道未被攻克，通过率仅为0.05%。这一超低通过率与SWE-bench等传统基准测试中AI模型高达88.7%的通过率形成鲜明对比，凸显了ProgramBench作为新一代编程基准的严格标准。随着推理算力的持续提升，编程AI正从“修复代码”向“创造程序”迈进，这一转变可能重新定义人工智能在软件开发领域的角色。

更多>同类资讯

数字引擎驱动未来 2026杭州国际智慧城市展8月启幕共绘智慧新景

05-13

万兆宽带赋能AI新飞跃：通信业助力智能时代迈向新高度

05-13

苹果iOS 27大革新：Siri变身独立应用，深度对标主流AI大模型

05-13

海尔泰国罗勇工业园奠基：打造东南亚最大中央空调AI智造基地布局海外新蓝图

05-13

理想汽车迈入新阶段！马赫M100芯片赋能L9 Livis性能飙升

05-13

支付宝“AI收”上线新能力，“支付集成”和“商家入驻”Skill助收款更简单

AI时代，个人开发者接入支付宝实现商业化更容易了。5月13日，支付宝“AI收”发布新能力，联合AI开发平台扣子编程升级“支付宝支付集成Skill”，并全新上线“支付宝商家入驻Skill”。开发者AI编程时可通过自然语言，一站式完成从「创建应用」到「集成支付宝支付」再到「

05-13

苹果iOS 27重磅改版：Siri迎来独立应用！对标ChatGPT

05-13

喊着“再造新老板”，却交出15年最烂答卷

05-13

估值679亿元！英特尔为苹果代工芯片 ASML有望从中获利

05-13

贾跃亭宣布转战机器人业务，关联多家公司已注销

05-13

AI时代度量衡！李彦宏首提“日活智能体数”（DAA）

5月13日至5月14日，Create2026百度AI开发者大会在京举办。百度创始人李彦宏在开幕式上，首次提出AI时代的“度量衡”——日活智能体数（DAA）。在李彦宏看来，Token不一定代表终局，它只代表成本并不代表收益，衡量的是投入而非产出，DAA则大致对应移动互联网时代通用的

05-13

助力提升DAA，百度智能云全面升级为面向智能体的新全栈AI云

5月13日，在Create2026百度AI开发者大会上，百度创始人李彦宏首次提出AI时代的“度量衡”——日活智能体数（DAA）。他认为，进入智能体时代，衡量一个平台和生态的繁荣，更应该关注DAA，关注有多少Agent在给人类干活，并交付结果。同时他认为，应对智能体的爆发，需要构

05-13

Anthropic拟9000亿美元估值融资，AI大模型算力与商业化竞争白热化

05-13

苹果iOS27革新来袭：Siri独立应用登场，开启智能交互全新篇章

05-13

点击查看更多 +

全站最新

5月22日正式登场！五菱缤果Pro未售先火，高性价比成家用代步新宠

比亚迪海狮08申报图曝光：海洋美学设计纯电续航900km引领旗舰SUV新风潮

奥迪Q9内饰首曝：动态氛围灯、多模态反馈成亮点，六座版配置升级

理想汽车迈入新阶段！马赫M100芯片赋能L9 Livis性能飙升

奥迪Q9内饰首秀：三屏电动门齐上阵，百万级旗舰7月全球首发引期待

上汽大众9X首周交付亮眼，锁单破万，新能源市场或迎新增长极

热门内容

本栏最新

理想汽车迈入新阶段！马赫M100芯片赋能L9 Livis性能飙升

日产新愿景下，伊凡如何引领智能出行浪潮，开启未来新篇章？

涂鸦智能2026年首季财报：营收稳增8.3% 经调整净利达1640万美元

李想谈AI芯片变革：理想自研马赫M100亮相，四年前选择获强悍验证

李想回应质疑：AI时代自研芯片是突破技术壁垒构建全域能力的关键

汽车产业价值重心转移：供应链崛起，车企角色悄然生变？

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.