ITBear旗下自媒体矩阵:

GPT-5发布会平淡收场:价格大降成亮点,编程进步有限

   时间:2025-08-08 16:00:13 来源:ITBEAR编辑:快讯团队 IP:北京 发表评论无障碍通道
 

在万众瞩目之下,GPT-5终于在深夜的北京时间8月8日凌晨1点揭开了神秘面纱,距离其前代GPT-4的发布已经过去了两年半的时间。然而,与ChatGPT初次亮相时的惊艳、GPT-4带来的跨越式升级,以及o1发布时的全场震撼不同,GPT-5的发布会显得颇为平淡。

发布会上,GPT-5的Benchmark成绩并不十分突出,也没有展现出全新范式的影子。展示的用例难以激起观众的兴趣,也很难看出与竞品的明显区别。甚至,发布会中还出现了PPT展示错误,被网友迅速抓包,这些元素共同构成了这场长达1小时20分钟的发布会。

尽管如此,GPT-5并非没有可取之处。其极低的幻觉率、前端能力的加强、上下文能力的显著提升,以及极具竞争力的价格,都是不容忽视的亮点。特别是在编程方面的表现,GPT-5展现出了强大的实力。而其API价格仅为同期发布的Claude Opus 4.1的十五分之一,也比Gemini 2.5 Pro的价格更低,这对竞争对手Anthropic来说无疑是一个沉重的打击。

GPT-5本次共推出了四个版本,包括GPT-5、GPT-5 mini、GPT-5 nano,以及仅对企业版和每月200美元的高级版开放的GPT-5 Pro模式。对于一般用户而言,默认使用的是统一模型GPT-5,它由多个模型组成的系统,能够智能地根据问题复杂程度选择使用不同的模型进行回答。

在智力水平方面,GPT-5在各种主流评测集中的表现都高于o3,但整体差距并不显著。特别是在前沿数学测试集中,GPT-5的效果甚至不如ChatGPT Agent,只有在Pro模式下才会表现出更强的实力。与其他模型相比,GPT-5的大多数“智力”能力仅仅稍微高出一点,部分能力甚至并非SOTA,只能说是以微小幅度领先。

然而,在用户体验方面,GPT-5却扳回一城。在LMArena这个主要由用户双盲比较不同模型优劣的排行榜上,GPT-5在所有项目上都获得了第一名。这得益于GPT-5在理解编程要求、改正错误以及使用工具能力上的显著提升,特别是其智能体式编码(Agentic Coding)系统的成熟,使得GPT-5能够像一个协作的团队一样行动。

在编程领域,GPT-5在thinking(思考)模式下较前代有明显提升。尽管与同样强调编程的竞争对手Anthropic最新的Claude 4.1 Opus相比,优势微小,但GPT-5在编程实际体验上做出了很多优化。例如,GPT-5能够深入一个真实的代码库,通过搜索和读取文件来理解代码的结构和逻辑,并最终定位到问题的根源,甚至能自动修复自己的bug。这一点对于当下的vibe coding而言十分重要。

然而,在多模态能力方面,GPT-5的提升并不显著。与Gemini这种大一统模型不同,GPT-5仍然是一个主要进行文字和图像理解的模型,不支持音频输入输出和图像生成。想短期内追上刚发布的Genie 3,对OpenAI来说似乎还是太难。

尽管综合实力并不惊艳,但GPT-5在一些小方面的提升确实非常可圈可点。特别是其显著减少了幻觉的发生,出现事实错误的概率比GPT-4o低约45%,比OpenAI o3低约80%。这对于实际落地应用来说极其重要。GPT-5的上下文能力也有显著提升,所有版本目前支持的上下文都拓展到了400k,远超o3、4o的128k默认版本上下文。这意味着GPT-5处理长文本的能力会有比较明显的强化。

然而,GPT-5的新功能却乏善可陈。写作上的优化并不直观,语音功能虽然自然,但视频输入功能只是标配。记忆能力升级也只是推出了与Gmail和Google Calendar的集成功能,与“记忆”关联性并不强。最后的个性化功能也只是允许用户自定义聊天界面的颜色,略显敷衍。

在回应数据瓶颈质疑时,OpenAI表示在GPT-5的训练中试验了新的训练技术,让模型可以利用前一代模型创造数据。然而,从效果上看,这个方法并没有完全解决数据的困境。

如果说GPT-5的性能提升不尽人意,那么在价格上它确实做到了皆大欢喜。对于C端用户,免费用户也可以使用GPT-5,但有使用次数限制。而对于Plus用户,将拥有比免费用户“高得多”的使用额度。对于API用户来说,GPT-5的价格更是难以拒绝。如果GPT-5的编程能力确实如测试般强大,那么对于价格高出15倍的Anthropic来说,将是毁灭性的打击。

然而,这场长达1小时20分的发布会却堪称灾难。眼尖的网友们很快就在发布会展示的PPT里发现了数据比例错误等问题。这样的错误不止一处,很快网友们就开始了嘲讽的狂欢。对于已经深陷在“炒作大师”印象中的OpenAI来说,这种错误无疑是火上浇油。

除了错误连连的问题外,这次的演示过程也冗长、过分专业且效果平平。对比其他公司的发布会环节来说实在是缺乏看点。而期间充斥的无聊冷笑话和漫长的推理等待时间更是让发布会的沉闷达到了前所未有的水平。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version