在科技界万众瞩目的期待中,GPT-5终于揭开神秘面纱,距离OpenAI首席执行官Sam Altman首次提及该模型已有一年半之久。尽管发布会依然吸引了众多熬夜观看的观众,但舆论场上少了些惊叹,多了些审慎的声音。
令人欣慰的是,GPT-5在模型性能上挽回了OpenAI近期下滑的声誉。发布会上亮相的GPT-5在多个方面展现了顶尖水平,OpenAI甚至宣称其为“世界最强编程模型”,直接挑战了Claude的领先地位。
然而,不可忽视的是,GPT-5虽依然领先,但并未如GPT-3、GPT-4那般实现断崖式的超越。竞争对手们正虎视眈眈,Anthropic宣布即将发布大版本更新的模型,而马斯克更是在社交媒体上刷屏,声称自家的Grok-4在某些测试中已超越GPT-5。
面对这样的竞争态势,Altman在发布会上更多地讲述了GPT-5如何以高性价比实现广泛应用的故事,而非直接回应能坐稳多久“王座”的问题。
GPT-5的全面升级,旨在使其成为更加实用的工作大模型。架构上,GPT-5采用了统一版本,包含基础模型、具备深度推理能力的GPT-5 thinking模型,以及实时路由器。实时路由器可根据对话类型、问题复杂性等因素快速选择最合适的模型,如用户要求“认真思考”,则会启用深度推理模型。
Altman对GPT-5充满信心,甚至将其使用体验比作与博士生的对话,相较于GPT-4的高中生级别和O3的大学生级别,GPT-5无疑带来了更高级别的交流体验。
在性能上,GPT-5确实不负众望,在编程、数学、多模态理解和健康等多个方面刷新了SOTA纪录。特别是在编程能力上,GPT-5在SWE-Bench测试中取得了74.9%的分数,超越了自家模型O3及Anthropic的Claude Opus 4.1,重新夺回领先地位。
发布会上,OpenAI展示了GPT-5快速生成高质量代码的能力,如在两分钟内完成阐释伯努利效应的网页,以及开发财务信息看板等实际应用。GPT-5还能制作小游戏,虽然这些功能开源大模型也能实现,但GPT-5在美观度和流程完整性上更胜一筹。
然而,发布会上的一个小插曲引发了讨论。在展示图表时,OpenAI犯了一个低级错误,数字与柱状图不匹配,这虽然可能是制图失误,但仍引发了对模型严谨性的质疑。
除了性能升级,GPT-5还在超长上下文理解和幻觉问题等方面进行了优化,旨在提升模型的落地能力。GPT-5在上下文理解上的表现优于其他模型,特别是在处理长文本时,理解能力下降速度显著较慢。同时,GPT-5还显著降低了幻觉问题,事实错误率比GPT-4o降低了45%,这对法律、医疗等行业尤为有利。
尽管GPT-5在性能上全面升级,但并未带来颠覆性的超越。然而,其在性价比上的优势却十分明显。与Claude Opus 4.1相比,GPT-5的输入价格低于前者的十分之一,输出价格低于七分之一。这一价格优势使得OpenAI有底气限量免费开放给所有用户使用,虽然免费用户在达到一定额度后会切换为GPT-5-mini模型。
面对竞争对手的步步紧逼,AI领域的SOTA宝座变得愈发难以坐稳。在性能趋同的背景下,OpenAI选择以价格作为竞争的核心。Altman强调,GPT-5不仅聪明,更注重实际应用价值和大规模普及能力。通过优化成本,GPT-5在价格上实现了断层领先,成为开发者寻求性价比的首选。
GPT-5的发布,标志着OpenAI在AI大模型竞争中的新策略:不再单纯依赖技术领先,而是更加注重模型的落地效果和价格优势。这一策略能否帮助OpenAI在激烈的市场竞争中脱颖而出,值得持续关注。