在科技界万众瞩目的期待中,GPT-5终于于8月7日由OpenAI揭开神秘面纱,这一基础大模型的更新标志着人工智能领域的又一重大突破。
OpenAI自豪地宣称,GPT-5是他们迄今为止打造的最智能、响应速度最快、实用性最强的模型。该模型内置了思维能力,旨在将专业级智能与便捷性带给每一位用户。GPT-5在编程、数学运算、文学创作、健康咨询以及视觉智能等多个领域展现了顶尖性能,并且具备智能判断响应速度的能力,知晓何时应迅速回应,何时则需深入思考。目前,GPT-5已向所有用户开放,但免费用户需稍作等待,方能体验完整的推理功能,而Plus订阅用户则能提前享受GPT-5 pro版本。
OpenAI首席执行官山姆·奥尔特曼在发布会上特别感谢了微软、英伟达、甲骨文、谷歌及coreweave等合作伙伴,正是这些公司提供的强大GPU算力支持,使得GPT-5的推出成为可能。
在编程应用上,GPT-5仅需用户简单提示,便能自动生成网站、应用程序乃至游戏。演示案例中,通过描述一个滚球小游戏的规则与视觉效果,GPT-5迅速构建出相应游戏原型,展现了其强大的生成能力。
文学创作方面,GPT-5同样表现出色,无论是起草报告、编辑邮件还是撰写备忘录,都能轻松应对。在对比测试中,面对同一创作主题,GPT-5与DeepSeek-R1生成的短诗相比GPT-4o,在画面感、意象丰富度、情感细腻度及语句流畅性上均有显著提升。
基准测试进一步验证了GPT-5的实力。在AIME2025竞赛数学测试中,GPT-5(无工具思考)与GPT-5 pro(使用Python)分别获得94.6%与100%的高分。在更高级别的FrontierMath测试中,GPT-5同样展现出不俗表现。在GPQA Diamond博士级科学问题测试、Humanity’s Last Exam跨学科专家级问题测试中,GPT-5均取得了优异成绩,且在某些场景下,其生成的词元数量较上一代模型减少了50%~80%。
值得注意的是,GPT-5在视觉推理、代理编码及研究生水平科学问题解决等方面,不仅性能卓越,且错误率显著降低。其出现幻觉的概率远低于以往模型,在使用网络搜索时产生错误事实的概率较o4降低了45%,思考时出错概率较o3降低了80%。当无法回答问题时,GPT-5能谦逊地承认自身局限,而非过度自信。
GPT-5在减少“阿谀奉承”行为上也取得了进步,通过改进训练方式,GPT-5在相关评估中的“阿谀奉承”概率大幅下降,使其对话表现更加贴近人类朋友的自然交流。
价格方面,GPT-5提供了更为亲民的选择。GPT-5、GPT-5-mini、GPT-5-nano三款模型的API服务价格均低于前代产品,为用户提供了更多灵活性与经济性。
尽管GPT-5的推出间隔较上一代有所延长,但OpenAI在此期间不断探索大模型的推理能力,推出了4o、o1、o3、o4系列模型。OpenAI还透露,ChatGPT已在全球范围内积累了超过7亿用户。
然而,GPT-5的发布并非毫无争议。部分基准测试中的得分与前代模型差距不大,且在直播演示中曾出现图表错误,引发业界讨论。其能力是否真正代表了最先进的人工智能水平,也受到了包括特斯拉CEO马斯克在内的业内人士的质疑。
与此同时,大模型公司xAI的联合创始人也在社交媒体上表达了对GPT-5发布的自豪之情,并指出xAI团队虽规模较小,但在多个方面领先,其Grok 4模型在ARC-AGI等基准测试中表现优于GPT-5,并预告将在未来几周展示更多新进展。马斯克对此评论道“做得好”,并确认了Grok 4在ARC-AGI测试中的胜出。