备受业界瞩目的GPT-5终于在万众期待中于今日凌晨震撼发布,标志着人工智能领域迈入了一个崭新的阶段。这款由OpenAI精心打造的模型,一经问世便迅速登上大模型竞技场的榜首,其在文本生成、编程、数学等多个领域均展现出了卓越的性能,成功超越了Gemini-2.5-pro、Grok4等竞争对手。
OpenAI官方表示,GPT-5不仅在各项基准测试中表现优异,回答速度更快,更重要的是,它对于现实世界的查询提供了更为实用和准确的答案。GPT-5在减少误解、优化指令执行以及避免过度恭维方面取得了显著进步,同时在写作、编码和健康咨询这三大ChatGPT应用场景中,也实现了性能的大幅提升。
OpenAI的首席执行官山姆·奥特曼(Sam Altman)形象地比喻道,如果将GPT-4比作大学生,那么GPT-5则已经达到了博士级别的智能水平。与GPT-5对话,就如同与一位在各个领域都拥有博士学位的专家进行深入交流。
回顾过去,奥特曼提到,自32个月前ChatGPT发布以来,其用户数量已激增至超过7亿。这一惊人的增长见证了人工智能技术的飞速发展和广泛应用。
然而,在发布会的一个小插曲中,GPT-5团队展示的一张“跑分”柱状图却意外引发了网友的热议。图中,一个数值为69.1的柱状图高度竟然低于数值为52.8的柱状图,这一明显的错误被网友戏称为“9.11>9.9”事件的再现。面对这一尴尬局面,OpenAI迅速做出了反应,官网上的图片已被悄然替换为更加准确的版本。
尽管出现了这样的小插曲,但GPT-5的能力升级仍然值得高度关注。此次发布的GPT-5系列模型包括GPT-5、GPT-5-mini、GPT-5-nano和GPT-5-pro四个版本,其中GPT-5首次集成了多模态和推理能力,能够智能地判断何时进行深度思考。这一创新将GPT系列和o系列进行了统一,用户在使用时无需再切换模型类型。
对于免费用户而言,GPT-5的使用量有限,超出部分将自动降级为GPT-5-mini。而GPT-5-pro则专为Pro订阅用户打造,凭借其扩展推理功能,能够提供更全面、准确的答案。针对开发人员,OpenAI在API平台上提供了GPT-5、GPT-5 mini、GPT-5 nano三种模型选择。
在多项基准测试中,GPT-5展现出了强大的实力,超越了OpenAI此前最强大的模型如o3、GPT-4o等,特别是在数学、编码、视觉感知和健康领域表现尤为突出。GPT-5-pro模型在科学知识基准测试GPQA上也取得了新的SOTA成绩,无需工具辅助即可获得88.4%的高分。
在编程方面,GPT-5被誉为迄今为止最好的编程模型。在真实世界编程SWE-benchVerified测试中,GPT-5得分高达74.9%,较o3版本的69.1%有所提升。GPT-5不仅以更高的效率和速度获得了高分,而且在输出tokens数量和工具调用次数方面也有了显著减少。在代码编辑评估Aider polyglot上,GPT-5更是创下了88%的新纪录,错误率较o3降低了三分之一。
为了验证GPT-5的编码能力,OpenAI特别邀请了AI编程创企Cursor的联合创始人兼首席执行官Michael Truell进行现场演示。Michael Truell对GPT-5的表现赞不绝口,称其是他们使用过的最智能的编码模型,在解决问题时展现出了出色的稳定性和速度。
GPT-5在Agent任务方面也表现出色,创下了指令跟踪基准测试和工具调用基准测试的新纪录。通用Agent创企Manus的联合创始人兼首席科学家Yichao ‘Peak’ Ji对GPT-5给予了高度评价,认为它在各种Agent任务中展现出了卓越的性能,对工具使用的更精确控制使Agent的稳定性和可操纵性有了显著提升。
在写作方面,GPT-5同样不逊色于目前的佼佼者GPT-4.5。GPT-5改进了语音功能,使其听起来更加自然流畅。同时,GPT-5还是迄今为止解决健康相关问题的最佳模型之一,它能够帮助用户更好地了解自己的健康状况,并提供更加精确和可靠的健康咨询。
为了满足付费用户的个性化需求,OpenAI还推出了定制化的ChatGPT服务。用户可以根据自己的喜好调整模型的性格和聊天界面的颜色,从而获得更加个性化的聊天体验。
在价格方面,GPT-5也展现出了较强的竞争力。与Anthropic和Google的最强大模型相比,GPT-5的成本相当甚至更低。这一价格策略无疑将进一步推动GPT-5的普及和应用。
然而,对于GPT-5的“第一”地位,并非所有人都表示认同。奥特曼的老对手马斯克就在社交平台上发文表示质疑,认为在人类最后测试上,Grok4 Heavy更胜一筹。这一言论无疑为GPT-5的后续实测表现增添了一丝悬念。