滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

GPT-5与Claude编程能力对决，背后真相竟是这样？

时间：2025-08-17 16:21:43 来源：硅星人编辑：快讯团队 IP：北京 发表评论无障碍通道

GPT5的发布并未如预期般震撼业界，相较于其前身GPT3.5及竞争对手sora，它的亮相显得相对平淡。OpenAI此番似乎有意摒弃了“传奇期货王”的称号，转而专注于大模型的落地与应用。在发布会上，OpenAI特别强调了GPT-5在编程领域的实力，这无疑反映了AI Coding作为当前最为接地气的AI应用方向，备受业界瞩目。众多AI IDE工具迅速响应，第一时间接入了GPT5，这样的效率在以往是难以想象的。

然而，有关OpenAI在编程能力测试中“作弊”的传闻却悄然兴起。具体而言，在SWE‑Bench Verified这项编程测试中，OpenAI并未完成全部500道题目，而是仅测试了477道。相比之下，claude、谷歌等模型则完成了全部500道题目的测试。更为离奇的是，SWE‑Bench Verified本就是OpenAI推出的一个“精炼版”。原版的SWE‑Bench包含2294个软件工程问题，OpenAI认为其中部分题目过难、不稳定，无法公平评估模型的编程能力，于是自行挑选了500道题，旨在使评测更为可靠。然而，这个“精选子集”又被削减了一部分，最终仅以477道题进行评测。

为了深入了解SWE‑Bench Verified及其评测内容，相关人士特地从OpenAI官网下载了题目、注释及评分标准，并进行了实际演练。SWE‑Bench Verified是一套面向真实世界软件工程问题的高质量评测数据，旨在衡量代码修复与理解能力。该数据集包含500个经过验证的测试样本，每个样本均附带代码仓库信息、问题描述、修复补丁、测试补丁及难度标签等关键信息。题目难度主要依据“完成时间”进行划分，例如15分钟内完成的任务较为简单，而耗时超过4小时的任务则被视为难点。

针对SWE‑Bench Verified中的部分项目，GPT5进行了实际测试，涉及大模型的多种能力。测试项目包括Django/Django的数据库查询优化、SymPy/SymPy的数值计算精度测试、Matplotlib/Matplotlib的图形渲染与坐标系统测试等。然而，令人费解的是，在SWE‑Bench Verified完整版，即500道题目的基准下，GPT5的表现并未超越claude 4 Opus。不过，当考虑到现实情况下用户通常会结合AI IDE使用大模型时，情况又有所不同。目前，GPT5可能是最具性价比、可用性最强的编程模型之一。

为了验证模型性能，相关人士在Codebuddy环境下，分别用GPT5和Claude-4-Sonnet制作了SWE‑Bench Verified数据库查询器。GPT5的制作过程相对顺利，但在细节上略显不足，例如内容排列逻辑稍显混乱。相比之下，Claude-4-Sonnet生成的网页在响应式布局、外链信息组织等方面表现更佳。在功能方面，GPT5在筛选功能上表现突出，但Claude-4-Sonnet的筛选操作更为直观易用。通过Gemini 2.5 Pro的评分，Claude-4-Sonnet生成的项目在几乎所有关键维度上都优于GPT5。前者展现出更成熟的软件工程思路和更广的应用场景覆盖。

尽管排行榜只是AI Coding领域的一个切片，但模型在真实开发环境中的稳定性、可维护性、与工具链的适配程度，以及产品能否在复杂应用场景中依然交出可用且可靠的代码，才是决定生产力的关键因素。GPT5的发布，无疑为AI Coding领域带来了新的活力与挑战，但真正的考验才刚刚开始。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

A股动态：中国神华重组预案出炉，算力概念股风险提示引关注

08-17

关晓彤同款彩椒碗走红，餐饮界健康风潮再掀新篇章

08-17

东方财富半年报：净利55亿创新高，中期不分红，高管持股新增4人

08-17

住房租赁新规实施，2.6亿租客迎“租购同权”，居住新时代来临

08-17

北京将迎首家机器人科技体验店，亲身体验前沿科技产品成亮点

08-17

韩红跨界成“蒙面”作家：以矮人视角，窥见真实自我与世界

08-17

董宇辉离职一年东方甄选股价飙涨，罗永浩爆其年收入超20亿传闻

08-17

职场旧梦·诗忆往昔良师

08-17

公募基金转战微信生态，能否重塑直销格局？

08-17

养生新潮流：打工人用沪上阿姨五黄慢养瓶，喝奶茶也能养胃

08-17

非辣火锅风靡川渝，多样口味掀起新热潮

08-17

蒙牛拼多多联名哪吒，首月热卖20万件，探索品牌年轻化新路径

08-17

恒扬数据与华为联袂发布新品，共探智能计算技术与产业融合新路径

8月15日，以“鲲鹏昇腾无处不在，成就商业好生意”为主题的2025华为深圳政企&恒扬数据新品推介会暨展车体验活动成功举办，百余位行业嘉宾齐聚一堂，共同探讨智能计算技术与产业深度融合的新路径。会后，与会嘉宾…

08-17

DeepMind揭秘Genie 3：AI世界模型新突破，迈向AGI关键一步

Genie3是他们最新最强的「世界模型」，是通向通用人工智能（AGI）的关键一步，因为它能让AI智能体在无限丰富的模拟环境中进行训练。在Genie 2时代，模型虽然大致能表现出物体该有的行为，但你还是一眼…

08-17

2025年小程序开发公司优选指南：多维度评测，助你精准选型

云智启网络有一些基础的小程序开发功能，能满足一些简单的业务需求，而且他们在本地也有一定的知名度，找他们开发小程序，沟通起来相对方便一些。最好是能实际体验一下他们的开发流程，看看过往客户的评价，这样才能选到真…

08-17

点击查看更多 +

全站最新

奇瑞风云X3系列：越野方盒子新车详解，如何选配置看这里

比亚迪海狮06杭州上市，颜值与实力并存，售价区间13.98万-16.38万

雷凌VS卡罗拉：性价比之战，哪款才是你的菜？

深蓝S09与领克900大比拼：精智家庭的理想座驾究竟花落谁家？

奇瑞风云X3系列上市，全铝车身亲民价，开启新能源细分市场新篇章

2025款五菱星光S原配轮胎揭秘：ATLAS A51，静音耐磨全能型选手

热门内容

本栏最新

恒扬数据与华为联袂发布新品，共探智能计算技术与产业融合新路径

DeepMind揭秘Genie 3：AI世界模型新突破，迈向AGI关键一步

2025年小程序开发公司优选指南：多维度评测，助你精准选型

奔驰大帝新车评测：豪华驾乘新境界，能否满足你的期待？

奇瑞风云X3：8.99万起售，全铝车身引领国产车技术革新

龙岩风神L8试驾盛典燃爆盛夏，卓越品质赢得客户高度赞誉

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.