AI编程单次亮眼长期“拉胯”？离替代程序员还有很长的路要走-数码极客-ITBear比尔科技

凌晨两点的办公室，程序员小李盯着屏幕上AI生成的第三版代码，眉头紧锁。最初的需求很简单——开发一个用户登录接口，AI仅用十分钟就完成了任务，且测试全部通过。然而，随着需求的不断扩展：添加验证码、支持第三方登录、接入权限系统、适配多租户架构……代码逐渐变得混乱不堪。第五次修改后，一个函数竟长达五百行，重复逻辑充斥其中，新增功能需要修改多个地方，每次改动都会引发其他功能的崩溃。最终，小李不得不推翻重写整个模块，边敲键盘边抱怨：“所谓的AI编程替代程序员，结果代码越改越烂，最后还得我来收拾残局。”

这种经历并非个例。近期，威斯康星麦迪逊大学与麻省理工学院的研究团队将这一痛点转化为行业基准，揭示了当前AI编程工具的致命缺陷：虽然能一次性完成简单任务，但在长期迭代和需求变更的场景下，代码质量会急剧下降，甚至比维护多年的“遗留系统”更糟糕。为此，他们开发了名为“SlopCodeBench”的评测框架，专门测试AI生成的“垃圾代码”在迭代过程中的退化程度。

传统AI编程评测通常采用“一次性任务”模式：给定一个完整且不变的需求，评估AI能否生成通过所有测试用例的代码。这类测试类似于“开卷期末考试”，追求满分却脱离实际。现实中，开发过程更像“每天新增一门课程，教材内容不断修改，学生需在旧笔记上补充内容，最终形成逻辑通顺的教材”。这种差异导致“AI编程优于人类”的结论存在严重误导性——当项目需要数月迭代、数十次需求变更时，AI生成的代码质量会迅速恶化，甚至比维护十年的老系统更难以处理。

SlopCodeBench的设计完全模拟真实开发场景的“痛苦模式”，堪称AI编程的“地狱级高考”。该基准包含20个常见开发任务，如表达式解析器、代码搜索工具等，每个任务拆分为93个逐步复杂的检查点，对应产品经理每周提出的新需求。例如，开发计算器的需求可能从“支持加减乘除”逐步扩展到“添加括号优先级”“支持自定义函数”“增加错误日志”等。测试规则严格限制AI的能力：不提供内部接口设计、不暴露测试用例、必须在上一轮代码基础上修改。这些规则迫使AI像人类开发者一样，面对模糊的需求文档自行设计架构，并在迭代中维护代码质量。

研究团队聚焦两个核心指标衡量代码质量：结构侵蚀与冗余度。结构侵蚀指代码逻辑过度集中于少数“超级函数”，导致维护困难。例如，一个最初20行的登录函数，经过多次需求扩展后可能膨胀至数千行，圈复杂度（逻辑分支数量）飙升至数百，修改一行代码可能引发多处崩溃。冗余度则衡量代码中重复、可简化内容的比例，如相同参数解析逻辑在多处重复出现，或用冗长if-else替代循环结构。通过137条规则扫描与克隆代码检测，研究团队量化了AI代码的“废料”比例。

测试结果令人失望：当前最先进的11个AI模型，包括Claude Opus 4.5/4.6、GPT 5.1-5.4等，均未能完成任何任务的全部检查点。表现最佳的Claude Opus 4.6严格通过率仅17.2%，意味着10个项目中8个以上烂尾。更严峻的是，随着迭代次数增加，80%项目的结构侵蚀持续上升，89.8%项目的冗余度不断恶化。初期核心功能与全量测试的通过率差距仅1.4倍，后期却扩大至13.3倍，表明代码表面能运行，但边缘逻辑已千疮百孔。以电路模拟器任务为例，Claude Opus 4.6的main函数从初始84行膨胀至1099行，圈复杂度从29飙升至285，9处命令分支包含完全重复的参数解析逻辑，修改时需同步更新多处，否则必然报错。

研究团队将AI代码与48个不同星标的Python开源仓库对比，结果进一步打击AI的信心：AI代码的冗余度是人类代码的2.2倍，结构侵蚀程度相同，违反设计规则的比例高达2.9倍。即便是以复杂著称的scikit-learn（0.411）和scipy（0.457），其代码健康度也显著优于AI。追踪开源仓库的提交记录发现，人类维护的代码质量通常保持稳定或逐步优化，而AI代码每迭代一次质量就下降一级，且无停止迹象。这意味着，程序员吐槽的“公司祖传烂代码”，其质量仍优于AI迭代数轮后的成果。

面对质疑，程序员尝试通过优化提示词改善AI表现，例如要求AI“避免冗余代码”“拆分函数”或“先提交设计方案”。实验表明，初始代码质量确有提升：冗余度降低33%-34%，前两轮代码更整洁。然而，退化速率未受影响，长期来看代码仍会恶化至无法使用的状态。更讽刺的是，使用“反冗余提示”的GPT 5.4项目成本从304美元飙升至450美元，通过率却从37.2%降至27.1%——钱花得更多，结果更糟。原因在于，AI为追求初始质量消耗大量资源设计架构，但缺乏长期规划能力，后续需求变更时仍会重复堆砌代码，前期投入化为泡影。

AI在迭代开发中表现糟糕的根本原因，在于缺乏“设计纪律”。人类开发者编写代码时，会考虑未来扩展性：预留接口、抽象公共逻辑、标记待重构部分，并在修改时评估对现有功能的影响。而AI的决策基于“短期最优”：当前需求能快速通过测试即可，后续变更引发的混乱不在考虑范围内。这种思维差异导致AI代码看似每轮独立合格，整体却如火药桶般脆弱。当前评测体系奖励“一次性完美”，却忽视“长期可维护性”，进一步误导了AI的训练方向。

对于非技术读者，需警惕“AI几分钟构建系统”的宣传。软件开发的真正成本在于后续维护与迭代，而非初始版本。AI虽能快速生成代码，但每次修改都会累积技术债务，长期总成本远高于人类开发。程序员则无需过度焦虑：掌握长期架构设计、能维护迭代项目的开发者，其价值远超任何AI工具。使用AI时，应避免直接修改复杂核心逻辑，可让其提供方案参考，再由人类控制架构并实施代码审查。与其纠结提示词优化，不如关注AI代码质量检测工具——未来，“给AI擦屁股”可能成为程序员的日常任务之一。