GPT5的发布并未如预期般震撼业界,相较于其前身GPT3.5及竞争对手sora,它的亮相显得相对平淡。OpenAI此番似乎有意摒弃了“传奇期货王”的称号,转而专注于大模型的落地与应用。在发布会上,OpenAI特别强调了GPT-5在编程领域的实力,这无疑反映了AI Coding作为当前最为接地气的AI应用方向,备受业界瞩目。众多AI IDE工具迅速响应,第一时间接入了GPT5,这样的效率在以往是难以想象的。
然而,有关OpenAI在编程能力测试中“作弊”的传闻却悄然兴起。具体而言,在SWE‑Bench Verified这项编程测试中,OpenAI并未完成全部500道题目,而是仅测试了477道。相比之下,claude、谷歌等模型则完成了全部500道题目的测试。更为离奇的是,SWE‑Bench Verified本就是OpenAI推出的一个“精炼版”。原版的SWE‑Bench包含2294个软件工程问题,OpenAI认为其中部分题目过难、不稳定,无法公平评估模型的编程能力,于是自行挑选了500道题,旨在使评测更为可靠。然而,这个“精选子集”又被削减了一部分,最终仅以477道题进行评测。
为了深入了解SWE‑Bench Verified及其评测内容,相关人士特地从OpenAI官网下载了题目、注释及评分标准,并进行了实际演练。SWE‑Bench Verified是一套面向真实世界软件工程问题的高质量评测数据,旨在衡量代码修复与理解能力。该数据集包含500个经过验证的测试样本,每个样本均附带代码仓库信息、问题描述、修复补丁、测试补丁及难度标签等关键信息。题目难度主要依据“完成时间”进行划分,例如15分钟内完成的任务较为简单,而耗时超过4小时的任务则被视为难点。
针对SWE‑Bench Verified中的部分项目,GPT5进行了实际测试,涉及大模型的多种能力。测试项目包括Django/Django的数据库查询优化、SymPy/SymPy的数值计算精度测试、Matplotlib/Matplotlib的图形渲染与坐标系统测试等。然而,令人费解的是,在SWE‑Bench Verified完整版,即500道题目的基准下,GPT5的表现并未超越claude 4 Opus。不过,当考虑到现实情况下用户通常会结合AI IDE使用大模型时,情况又有所不同。目前,GPT5可能是最具性价比、可用性最强的编程模型之一。
为了验证模型性能,相关人士在Codebuddy环境下,分别用GPT5和Claude-4-Sonnet制作了SWE‑Bench Verified数据库查询器。GPT5的制作过程相对顺利,但在细节上略显不足,例如内容排列逻辑稍显混乱。相比之下,Claude-4-Sonnet生成的网页在响应式布局、外链信息组织等方面表现更佳。在功能方面,GPT5在筛选功能上表现突出,但Claude-4-Sonnet的筛选操作更为直观易用。通过Gemini 2.5 Pro的评分,Claude-4-Sonnet生成的项目在几乎所有关键维度上都优于GPT5。前者展现出更成熟的软件工程思路和更广的应用场景覆盖。
尽管排行榜只是AI Coding领域的一个切片,但模型在真实开发环境中的稳定性、可维护性、与工具链的适配程度,以及产品能否在复杂应用场景中依然交出可用且可靠的代码,才是决定生产力的关键因素。GPT5的发布,无疑为AI Coding领域带来了新的活力与挑战,但真正的考验才刚刚开始。