近日,中信建投发布了一份深度研究报告,聚焦GPT-5的正式发布及其带来的技术革新。报告显示,GPT-5在长文本记忆、幻觉率降低以及推理效率优化方面取得了显著进展,为AI应用的进一步发展奠定了坚实基础。
据悉,GPT-5于2025年8月8日凌晨由OpenAI正式推出,包括GPT-5、GPT-5-Mini和GPT-5-Nano三个版本。在性能上,GPT-5刷新了多项基准测试记录,特别是在数学、编程、视觉理解和健康领域展现出卓越能力。在LMArena大模型竞技场上,GPT-5在各维度综合排名中位居榜首。
在数学领域,GPT-5在AIME 2025无工具/Python条件下的得分分别为94.6%和100%,显示出对工具的有效利用。同时,在HMMT(麻省理工学院数学锦标赛)中,GPT-5取得了最高100%的得分;在GPQA Diamond(博士级科学问题)中,最高得分达到89.4%;在HLE(跨学科专家问题)中的得分也颇为可观,为42.0%。
编程方面,GPT-5在SWE-bench Verified(带思考)测试中得分74.9%,略超Claude Opus 4.1的74.5%,成为新的性能标杆。在LMArena的各类能力得分中,GPT-5在WebDev上的得分高达1479分,大幅领先排名第二的Gemini-2.5-Pro(1403分)。
多模态能力上,GPT-5在视觉理解方面表现出色,MMMU(带思考)得分84.2%,高于Gemini 2.5 Pro的81.7%。在MMMU-Pro、VideoMMMU等基准测试中,GPT-5较其前代模型也有显著提升。
GPT-5的应用场景同样广泛。在教育领域,GPT-5能在几分钟内生成数百行代码,创建互动内容解释复杂概念;还能快速构建法语学习网页,帮助用户练习发音,且语音语调更加自然。医疗是GPT-5的重点应用场景,OpenAI称其为迄今为止最好的健康模型。在涵盖法律、物流、销售和工程等40多个职业的具有经济意义的任务上,GPT-5在47.1%的场景中达到了与专家相当或更高的水平。
GPT-5的上下文窗口提升至400K tokens(约30万字),是前代产品的两倍。GPT-5还配备了实时路由器,可根据用户对话类型、复杂性、工具需求和明确意图快速决定使用哪个模型。同时,“Memory”功能新增了对Gmail和谷歌日历的访问权限,有助于用户规划日程。
在幻觉率方面,GPT-5也取得了显著降低。在ChatGPT生产环境流量的匿名测试中,GPT-5的事实错误率比前代降低了约45%;启用推理功能时,错误率降低约80%。在开放性事实准确性基准测试中,GPT-5的幻觉率也大幅降低。
定价与成本方面,GPT-5对全用户开放,Plus用户可用量更高,Pro用户可使用带思考能力的GPT-5-Pro。GPT-5每百万tokens输入价格为1.25美元(缓存命中为0.125美元),输出价格为10美元,与Gemini 2.5 Pro持平。Mini和Nano版本的价格分别为GPT-5的1/5和1/25。
与此同时,华为在昇腾计算产业发展峰会上宣布,其昇腾硬件使能CANN全面开源开放。CANN(神经网络异构计算架构)是一个由多种技能栈和算子加速库等组成的软件生态系统,能将上层AI训练框架与底层昇腾芯片连接起来,加速昇腾生态建设。
针对不同层级的开发者,华为推出了差异化开放策略。在算法创新层,开发者可基于业务场景进行“魔改式”创新;在系统优化层,CANN开放了190多个底层接口,释放硬件的原子级能力;在编译生态层,通过开放毕昇编译器的AscendNPU IR接口,开发者可以使用Python语法编写高性能算子。
CANN在计算、内存、通信方面进行了优化,提高了效率。计算层面,针对MoE大模型训练场景推出了超级算子MLAPO,显著提升了端到端性能;内存层面,多重地址映射技术解决了内存碎片化难题;在分布式训练领域,NPUDirect通信算法降低了跨机通信时延。
随着CANN的进一步开源,昇腾CANN生态有望进一步完善,有望对标CUDA加速追赶,为基于国产算力的AI应用开发提供了更好的基础。
GPT-5的推出和华为CANN的全面开源,无疑为AI应用的发展注入了新的活力。对于有数据、有客户、有场景的软件企业而言,AI产品有望带动公司ARPU和项目单价的提升。同时,模型私有化需求的增加也将利好一体机、超融合和B端服务外包企业。
然而,值得注意的是,尽管前景广阔,但仍需警惕宏观经济下行风险、应收账款坏账风险、行业竞争加剧以及国际环境变化带来的不确定性。