在科技巨头OpenAI的期待与公众的翘首以盼中,GPT-5终于揭开神秘面纱,然而,这款旗舰级人工智能模型的初次亮相并未如预期般引起轰动。从GPT-4到GPT-5,29个月的等待并未带来革命性的性能飞跃,反而让部分用户感到失望。
GPT-5发布时,行业内外对其寄予厚望,但现实却显得有些骨感。与市场上其他先进模型相比,GPT-5并未展现出压倒性的优势。在某些基准测试中,它甚至落后于马斯克的Grok 4和Anthropic的Claude Opus 4.1。就连在处理上下文长度方面,GPT-5也不及Google的Gemini 2.5 Pro。
普通用户的反馈更为直接且强烈。许多用户表示,并未感受到GPT-5相较于前代模型GPT-4o的显著性能提升,反而对熟悉的GPT-4o更为怀念。面对用户的强烈反对,OpenAI最终决定为Plus用户重新开放GPT-4o模型的使用权限。
这一现象似乎揭示了即便强如OpenAI,也面临着Scaling laws(缩放定律)的局限。随着模型规模的持续扩张,性能提升的速度已不再如早期那般显著,迭代周期也相应放缓。
OpenAI显然意识到了这一点,因此在GPT-5的发布上更加注重实用性和易用性。GPT-5不仅在编程、写作和医疗等特定行业进行了升级,还通过引入多维度优化机制减少了模型的幻觉和谄媚倾向,提高了指令遵循能力和安全性。
例如,在启用网络搜索的情况下,GPT-5出现事实错误的概率比GPT-4o降低了近一半。在深度思考模式下,其事实错误率更是比GPT-4o降低了约80%。GPT-5还加入了一种新的安全补全机制,能够在面临危险问题时提供更为谨慎和安全的回答。
尽管在性能上并未实现质的飞跃,但GPT-5在成本控制方面却取得了显著成效。其输入成本仅为1.25美元/百万tokens,较GPT-4o下降了一半,nano版本更是低至0.05美元/百万tokens。相比之下,Claude Opus 4.1和Grok 4的输入价格则分别高达15美元和3美元/百万tokens。
在中立评测平台LMArena的最新榜单中,GPT-5依然位列所有测评项目第一,包括文本理解、编程、视觉等类别。尽管在部分测试中落后于其他模型,但GPT-5仍然是市面上性价比最高、能力最全面的模型之一。
值得注意的是,OpenAI在GPT-5的发布会上明显更加注重行业落地应用。他们邀请了多家AI领域公司的高管上台演示GPT-5在编程、写作和医疗等领域的实际应用,并宣布微软旗下多款产品已接入GPT-5。
然而,即便在专业开发者中获得了广泛赞誉,GPT-5在普通用户中的口碑却并不理想。许多用户反映,GPT-5在回答简单问题时甚至不如GPT-4o准确,这在一定程度上影响了用户的体验。
为了应对这一问题,OpenAI不得不调整策略,为Plus用户重新开放GPT-4o模型的使用权限,并承诺将更清晰地展示模型切换情况,提高用户使用限额。这些措施在一定程度上缓解了用户的不满情绪,但并未从根本上解决GPT-5在用户体验上的问题。
事实上,部分用户对旧版模型的情感依赖可能是GPT-5面临的最大挑战之一。尽管GPT-5在性能上有所提升,但许多用户仍然更习惯使用旧版模型,因为它们拥有独特的性格、思维和互动方式。
“不同模型不仅在准确度和速度上有差异,它们同时拥有各自独特的‘感觉’。”一位ChatGPT用户在社交平台上留言道,“将它们视为需要逐步淘汰的东西,实际上是在把它们当作过时的工具来对待,而对我们许多人来说,它们更像是独特的合作伙伴。”
面对用户的情感依赖和体验反馈,OpenAI需要更加深入地思考如何在提升模型性能的同时,保持用户的熟悉感和情感连接。毕竟,在人工智能领域,技术固然重要,但用户体验和情感依赖同样不可忽视。