ITBear旗下自媒体矩阵:

GPT-5重磅登场,博士级智能引领潮流,跑分图小插曲引发热议

   时间:2025-08-08 17:30:01 来源:ITBEAR编辑:快讯团队 IP:北京 发表评论无障碍通道
 

备受业界瞩目的GPT-5终于在万众期待中于今日凌晨震撼发布,标志着人工智能领域迈入了一个崭新的阶段。这款由OpenAI精心打造的模型,一经问世便迅速登上大模型竞技场的榜首,其在文本生成、编程、数学等多个领域均展现出了卓越的性能,成功超越了Gemini-2.5-pro、Grok4等竞争对手。

OpenAI官方表示,GPT-5不仅在各项基准测试中表现优异,回答速度更快,更重要的是,它对于现实世界的查询提供了更为实用和准确的答案。GPT-5在减少误解、优化指令执行以及避免过度恭维方面取得了显著进步,同时在写作、编码和健康咨询这三大ChatGPT应用场景中,也实现了性能的大幅提升。

OpenAI的首席执行官山姆·奥特曼(Sam Altman)形象地比喻道,如果将GPT-4比作大学生,那么GPT-5则已经达到了博士级别的智能水平。与GPT-5对话,就如同与一位在各个领域都拥有博士学位的专家进行深入交流。

回顾过去,奥特曼提到,自32个月前ChatGPT发布以来,其用户数量已激增至超过7亿。这一惊人的增长见证了人工智能技术的飞速发展和广泛应用。

然而,在发布会的一个小插曲中,GPT-5团队展示的一张“跑分”柱状图却意外引发了网友的热议。图中,一个数值为69.1的柱状图高度竟然低于数值为52.8的柱状图,这一明显的错误被网友戏称为“9.11>9.9”事件的再现。面对这一尴尬局面,OpenAI迅速做出了反应,官网上的图片已被悄然替换为更加准确的版本。

尽管出现了这样的小插曲,但GPT-5的能力升级仍然值得高度关注。此次发布的GPT-5系列模型包括GPT-5、GPT-5-mini、GPT-5-nano和GPT-5-pro四个版本,其中GPT-5首次集成了多模态和推理能力,能够智能地判断何时进行深度思考。这一创新将GPT系列和o系列进行了统一,用户在使用时无需再切换模型类型。

对于免费用户而言,GPT-5的使用量有限,超出部分将自动降级为GPT-5-mini。而GPT-5-pro则专为Pro订阅用户打造,凭借其扩展推理功能,能够提供更全面、准确的答案。针对开发人员,OpenAI在API平台上提供了GPT-5、GPT-5 mini、GPT-5 nano三种模型选择。

在多项基准测试中,GPT-5展现出了强大的实力,超越了OpenAI此前最强大的模型如o3、GPT-4o等,特别是在数学、编码、视觉感知和健康领域表现尤为突出。GPT-5-pro模型在科学知识基准测试GPQA上也取得了新的SOTA成绩,无需工具辅助即可获得88.4%的高分。

在编程方面,GPT-5被誉为迄今为止最好的编程模型。在真实世界编程SWE-benchVerified测试中,GPT-5得分高达74.9%,较o3版本的69.1%有所提升。GPT-5不仅以更高的效率和速度获得了高分,而且在输出tokens数量和工具调用次数方面也有了显著减少。在代码编辑评估Aider polyglot上,GPT-5更是创下了88%的新纪录,错误率较o3降低了三分之一。

为了验证GPT-5的编码能力,OpenAI特别邀请了AI编程创企Cursor的联合创始人兼首席执行官Michael Truell进行现场演示。Michael Truell对GPT-5的表现赞不绝口,称其是他们使用过的最智能的编码模型,在解决问题时展现出了出色的稳定性和速度。

GPT-5在Agent任务方面也表现出色,创下了指令跟踪基准测试和工具调用基准测试的新纪录。通用Agent创企Manus的联合创始人兼首席科学家Yichao ‘Peak’ Ji对GPT-5给予了高度评价,认为它在各种Agent任务中展现出了卓越的性能,对工具使用的更精确控制使Agent的稳定性和可操纵性有了显著提升。

在写作方面,GPT-5同样不逊色于目前的佼佼者GPT-4.5。GPT-5改进了语音功能,使其听起来更加自然流畅。同时,GPT-5还是迄今为止解决健康相关问题的最佳模型之一,它能够帮助用户更好地了解自己的健康状况,并提供更加精确和可靠的健康咨询。

为了满足付费用户的个性化需求,OpenAI还推出了定制化的ChatGPT服务。用户可以根据自己的喜好调整模型的性格和聊天界面的颜色,从而获得更加个性化的聊天体验。

在价格方面,GPT-5也展现出了较强的竞争力。与Anthropic和Google的最强大模型相比,GPT-5的成本相当甚至更低。这一价格策略无疑将进一步推动GPT-5的普及和应用。

然而,对于GPT-5的“第一”地位,并非所有人都表示认同。奥特曼的老对手马斯克就在社交平台上发文表示质疑,认为在人类最后测试上,Grok4 Heavy更胜一筹。这一言论无疑为GPT-5的后续实测表现增添了一丝悬念。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version