ITBear旗下自媒体矩阵:

GPT-5与o3亮眼表现背后,AI大模型发展步入平稳期?

   时间:2025-08-08 20:05:01 来源:观察者网编辑:快讯团队 IP:北京 发表评论无障碍通道
 

在科技界的翘首以盼中,OpenAI终于揭开了其最新力作ChatGPT-5的神秘面纱,这一盛况与谷歌举办的大模型国际象棋对抗赛不谋而合,为科技爱好者们献上了一场双重盛宴。然而,就在ChatGPT-5发布的同时,网络上迅速涌现出对其能力的细致审视,一些细微瑕疵未能逃过网友的火眼金睛。

作为OpenAI年度最受期待的产品,ChatGPT-5无疑承载着巨大的期望。在多项测评数据中,它展现出了显著的进步,特别是在推理能力方面。例如,在数学能力测试AIME 2025上,GPT-5 Pro在启用推理模式并借助Python工具的情况下,成功斩获满分,即便在不调用工具的情况下,其表现也远超同类产品。编程测试SWE-bench Verified上,GPT-5同样以高分领跑,进一步巩固了其在技术领域的领先地位。在博士水平的科学知识测试GPQA Diamond中,GPT-5 Pro刷新了记录,多模态测试及高难度的Humanity's Last Exam上,GPT-5也均有不俗表现。大模型竞技场LM Arena的评分中,GPT-5更是横扫所有单项榜首,这些数据无疑证明了其作为一次大版本升级的成功。

然而,光鲜背后总有阴影。发布会后不久,网友便发现GPT-5在解决一道看似简单的数学方程时出现了计算错误,这一瑕疵迅速在网络上发酵,引发了关于AI能力边界的讨论。更有趣的是,OpenAI发布会PPT中的一张图表也因柱状图高度错误而引发了热议,尽管尚不清楚这是人为失误还是AI生成的结果。

与此同时,在大模型国际象棋对抗赛的舞台上,OpenAI旗下的o3以4-0的绝对优势击败Grok 4,夺得冠军。这场对抗赛不仅是一场技术的较量,更是对AI推理能力的一次深度检验。随着对局长度的增加,Grok 4的棋力明显下降,而o3尽管表现相对稳健,但也并非无懈可击,整个比赛过程中同样出现了低级失误。这不禁让人思考,AI在下棋这类特定任务中的表现,究竟能证明什么?

事实上,这场国际象棋比赛的意义远不止于胜负本身。它更像是一次对AI推理能力的实战演练。在没有接受过专门棋谱训练的情况下,AI们需要依靠自身的推理能力和语言逻辑来推演棋盘变化。这种与人类相同的推理方式,正是AI在泛化性上取得突破的关键。遗憾的是,无论是o3、Grok 4还是GPT-5,在展现出强大解决问题能力的同时,也暴露出对人类而言的低级错误。这反映出当前Next Token Predicting范式下的AI仍面临诸多挑战,距离真正的通用人工智能(AGI)还有相当长的路要走。

值得注意的是,OpenAI在本次发布会上更多地聚焦于GPT-5在垂直场景应用的能力,如生成小游戏、回答健康问题等,旨在探索AI与人类共存与协作的新模式。这一转变或许意味着OpenAI正逐步调整外界对其产品的过高期望,转而寻求更加实用和接地气的应用场景。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version