滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

GPT-5与o3亮眼表现背后，AI大模型发展步入平稳期？

时间：2025-08-08 20:05:01 来源：观察者网编辑：快讯 IP：北京 发表评论无障碍通道

在科技界的翘首以盼中，OpenAI终于揭开了其最新力作ChatGPT-5的神秘面纱，这一盛况与谷歌举办的大模型国际象棋对抗赛不谋而合，为科技爱好者们献上了一场双重盛宴。然而，就在ChatGPT-5发布的同时，网络上迅速涌现出对其能力的细致审视，一些细微瑕疵未能逃过网友的火眼金睛。

作为OpenAI年度最受期待的产品，ChatGPT-5无疑承载着巨大的期望。在多项测评数据中，它展现出了显著的进步，特别是在推理能力方面。例如，在数学能力测试AIME 2025上，GPT-5 Pro在启用推理模式并借助Python工具的情况下，成功斩获满分，即便在不调用工具的情况下，其表现也远超同类产品。编程测试SWE-bench Verified上，GPT-5同样以高分领跑，进一步巩固了其在技术领域的领先地位。在博士水平的科学知识测试GPQA Diamond中，GPT-5 Pro刷新了记录，多模态测试及高难度的Humanity's Last Exam上，GPT-5也均有不俗表现。大模型竞技场LM Arena的评分中，GPT-5更是横扫所有单项榜首，这些数据无疑证明了其作为一次大版本升级的成功。

然而，光鲜背后总有阴影。发布会后不久，网友便发现GPT-5在解决一道看似简单的数学方程时出现了计算错误，这一瑕疵迅速在网络上发酵，引发了关于AI能力边界的讨论。更有趣的是，OpenAI发布会PPT中的一张图表也因柱状图高度错误而引发了热议，尽管尚不清楚这是人为失误还是AI生成的结果。

与此同时，在大模型国际象棋对抗赛的舞台上，OpenAI旗下的o3以4-0的绝对优势击败Grok 4，夺得冠军。这场对抗赛不仅是一场技术的较量，更是对AI推理能力的一次深度检验。随着对局长度的增加，Grok 4的棋力明显下降，而o3尽管表现相对稳健，但也并非无懈可击，整个比赛过程中同样出现了低级失误。这不禁让人思考，AI在下棋这类特定任务中的表现，究竟能证明什么？

事实上，这场国际象棋比赛的意义远不止于胜负本身。它更像是一次对AI推理能力的实战演练。在没有接受过专门棋谱训练的情况下，AI们需要依靠自身的推理能力和语言逻辑来推演棋盘变化。这种与人类相同的推理方式，正是AI在泛化性上取得突破的关键。遗憾的是，无论是o3、Grok 4还是GPT-5，在展现出强大解决问题能力的同时，也暴露出对人类而言的低级错误。这反映出当前Next Token Predicting范式下的AI仍面临诸多挑战，距离真正的通用人工智能（AGI）还有相当长的路要走。

值得注意的是，OpenAI在本次发布会上更多地聚焦于GPT-5在垂直场景应用的能力，如生成小游戏、回答健康问题等，旨在探索AI与人类共存与协作的新模式。这一转变或许意味着OpenAI正逐步调整外界对其产品的过高期望，转而寻求更加实用和接地气的应用场景。

更多>同类资讯

焦煤连续主力合约涨1%

06-12

铂连续主力合约涨4%

06-12

精研科技：公司光模块壳体产品已有部分开始量产

06-12

科创50涨超4% 芯片股全线走强

06-12

液化石油气连续主力合约跌5%

06-12

四会富仕(300852.SZ)：向特定对象发行A股股票申请获得深交所受理

06-12

科伦药业(002422.SZ)：控股子公司科伦博泰收到宜联生物医药相关款项6.03亿元

06-12

宝丽迪(300905.SZ)：公司200吨COFs项目已基本完成设备安装工作，目前正在做设备调试相关工作

06-12

网络信号防雷器：为通信机房构筑安全防线，保障数据稳定传输

特别是在机房之间采用网线互联、光电转换设备接入、室外监控系统联网以及基站通信传输等场景中，网络信号线路往往成为雷电能量进入设备的重要通道。通过在关键网络节点部署专业信号防雷设备，可以有效降低雷电引发的设备故障…

06-12

国产航天新突破！沧龙五号百吨级液氧甲烷发动机热试车圆满收官

06-12

数学家新研究挑战传统：宇宙加速膨胀或无需暗能量来解释

06-12

磷化铟成市场焦点：宿迁联盛涨停，“中字头”央企布局引关注（附相关股）

06-12

前5个月超七成私募证券产品“赚钱”

06-12

华健未来：拟全球发售1360万股H股，发售价81.8港元

06-12

29.62亿元市值限售股今日解禁

06-12

点击查看更多 +

全站最新

五大电商平台遭约谈专家：监管应前移构建健康电商生态

大厂“巨轮”下的生存法则：适应系统偏好，还是难逃“熵增”衰落宿命？

2025年9月上市的59款新车：“死亡谷效应”下谁在逆袭谁在沉沦？

传祺向往M8 PHEV L与E8 PHEV上市丰富配置与续航表现引关注

17.79万起享奔驰设计插混轿车 smart精灵6号上市配置拉满

充电枪微动开关行业深度转型：技术为王，五大服务商谁主沉浮？

热门内容

本栏最新

北京地铁回应张雪事件：闸机防夹未关时插卡，无效票卡被退引误会

两年估值10.9亿订单爆满，张雪机车上市时机：是顺势而为还是再等等？

Ping64如何让即时通讯文件外发从“盲区”变“责任链”全解析

千诀科技A轮融资数亿元，京铭资本领投多家老股东持续加码共助发展

雨天刹车“失灵”？别急着怪自己，水膜作祟才是真凶！

亿达科创深圳新址启幕借湾区优势绘就数字服务发展新蓝图

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.