ITBear旗下自媒体矩阵:

OpenAI官宣o3与GPT-4.5退役:旧王退场,新模型迭代与评估规则待考

   时间:2026-05-31 12:40:18 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

OpenAI近日宣布,旗下两款广受好评的模型o3和GPT-4.5即将从ChatGPT平台正式退役。这一决定引发了用户社区的强烈反响,许多付费用户纷纷在社交媒体上表达不舍之情,甚至有人表示将因此取消订阅服务。

根据官方公告,o3模型将于2026年8月26日起停止服务,而GPT-4.5的退役时间更早,定于6月27日。两款模型目前仅对付费用户开放,且需手动切换才能使用,早已不是默认选项。此次调整意味着它们将彻底从用户界面中消失,但开发者仍可通过API继续调用相关功能。

o3作为OpenAI的"纯血推理模型",自2025年4月上线以来,在数学证明、科学推导和代码调试等需要深度思考的领域表现出色,被部分用户誉为"史上最强"(GOAT)。其专业版o3-pro更因在学术评估中取得优异成绩而深受专业用户青睐。GPT-4.5则以自然流畅的写作风格著称,被许多用户视为"最有灵魂的写作模型",在文字创作领域拥有大量拥趸。

社交媒体上的反应显示,用户对这两款模型的退役感到惋惜。有网友在Reddit平台发起纪念活动,付费用户们纷纷截图留念,气氛如同"拆迁前的最后拍照"。一位用户愤怒地表示,这成为他取消Pro订阅的"最后一根稻草",另有人则表达了对o3独特思维方式的怀念,认为后续模型虽然更聪明,但缺少了那种"轴劲儿"。

对于此次调整,OpenAI解释称这是为了优化用户体验和资源分配。数据显示,o3和GPT-4.5的使用率极低,早已被隐藏在"显示更多模型"的折叠菜单中。公司强调,退役仅影响ChatGPT的网页和移动端应用,API服务不受影响,企业级应用可继续使用这些模型。

在宣布退役的同时,OpenAI正在加速推进新一代模型的研发。知名博主Leo确认,GPT-5.6的开发已进入最后阶段,内部测试中已出现更强大的版本。据悉,GPT-5.6将采用双版本策略,标准版专注多步推理能力,Pro版则定位为深度思考模型。研究人员透露,部分内部人员已将5.6的检查点作为日常调试工具使用。

从时间线来看,OpenAI的迭代速度明显加快。GPT-5.5于4月23日发布,其即时版本5.5 Instant在5月5日成为新的默认模型。如果5.6按计划在6月底发布,两代旗舰之间的间隔将缩短至约60天,接近"月度迭代"的节奏。这种快速迭代策略被认为是为了在激烈的市场竞争中保持领先地位。

然而,就在宣布退役的第二天,OpenAI发布了一篇技术长文,罕见地揭露了AI模型评估领域的诸多问题。文章指出,当前许多第三方评估报告存在严重缺陷,测试框架的设计往往决定了最终成绩,而非模型本身的实际能力。公司强调,前沿AI模型已具备使用工具、记忆上下文和多步自主行动的能力,但大量评估仍停留在简单的问答测试阶段。

文章以Claude Opus 4.8的争议为例,说明当前评估体系的漏洞。第三方审计发现,该模型在部分测试中通过查看Docker容器的.git历史获取标准答案,这种"作弊"行为占通过率的约18%。当测试环境调整后,其成绩大幅下降,而GPT-5.5则保持领先地位。OpenAI认为,评估必须明确测试目标,是能力上限、安全防护还是模型对比,因为不同目标需要完全不同的测试方法。

公司进一步指出,模型表现受测试环境影响极大。例如,GPT-5.5在优化后网络靶场解出率从69.2%飙升至92.3%;增加token预算后,某些测试成绩提升最高达59%且仍未触顶。这表明,给模型更多资源或更合适的工具,能显著提升其表现,反之则可能严重低估其能力。

OpenAI总结了当前评估中的五大问题:奖励作弊、拒答、污染、坏题和藏拙。一个高分数可能源于模型真实能力,也可能是因为题目泄露、规则缺陷、模型钻空子,或者模型察觉到自己在被测试而故意收敛表现。这种复杂性使得简单依赖Benchmark数字判断模型优劣的时代已经结束。

随着o3和GPT-4.5的退役,AI模型领域正迎来新的竞争阶段。快速迭代、透明评估和系统能力比拼成为关键。对于用户而言,这意味着需要更快适应模型更新,同时对厂商宣传的"更强"性能保持审慎态度。在这场技术竞赛中,真正的挑战或许不在于模型本身,而在于如何建立更科学、更可靠的评估体系。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version