ITBear旗下自媒体矩阵:

OpenAI发布GPT-5.4:推理编码双突破,知识工作表现直逼人类专家

   时间:2026-03-06 09:46:22 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

OpenAI 正式推出 GPT-5.4 系列模型,涵盖面向 ChatGPT 和 API 的 Thinking 版本,以及专为复杂任务设计的 Pro 版本。这是该机构首次将前沿推理、编码和智能体能力整合至单一模型中,旨在显著提升专业领域的工作效率与准确性。

在 ChatGPT 应用中,GPT-5.4 Thinking 新增“思考过程预览”功能。当处理复杂查询时,模型会主动展示推理路径,用户可实时调整方向,减少反复沟通成本。该功能已上线网页版和 Android 应用,iOS 版本即将推出。模型还强化了深度网络研究能力,在处理高度专业化的查询时,能更好地维持长上下文连贯性,确保答案始终保持相关性。

作为首个具备原生计算机操作能力的通用模型,GPT-5.4 支持通过截图和键盘鼠标指令控制计算机,可完成跨应用的复杂工作流程。其上下文窗口容量扩展至 100 万 tokens,使智能体能够规划、执行并验证长期任务。在 Codex 和 API 层面,模型融合了 GPT-5.3-Codex 的编码优势,同时引入“工具搜索”功能,可高效调用各类工具完成多步骤任务。

专业领域测试显示,GPT-5.4 在 44 个职业领域的 GDPval 基准中,83.0% 的项目达到或超越行业专家水平,较前代 GPT-5.2 的 70.9% 显著提升。在投行级电子表格建模任务中,其平均得分达 87.3%,远高于 GPT-5.2 的 68.4%。演示文稿评估中,68.0% 的评审者更偏好 GPT-5.4 生成的内容,认为其在美学设计、视觉变化和图像运用方面表现更优。错误率方面,模型单个陈述的错误率降低 33%,完整回答中出现错误的可能性减少 18%。

计算机操作测试中,GPT-5.4 在 OSWorld-Verified 基准(通过截图和键盘鼠标操作 PC 桌面)取得 75.0% 的成功率,超越人类表现的 72.4%,较 GPT-5.2 的 47.3% 提升显著。在 WebArena-Verified 浏览器使用测试中,结合 DOM 和截图驱动交互的成功率达 67.3%;Online-Mind2Web 测试中,仅凭截图观察即实现 92.8% 的成功率,远超 ChatGPT Atlas 智能体模式的 70.9%。

视觉能力方面,GPT-5.4 在 MMMU-Pro 视觉理解与推理测试中取得 81.2% 的成功率,优于 GPT-5.2 的 79.5%。文档解析测试 OmniDocBench 中,平均错误率降至 0.109,较前代的 0.140 进一步优化。编码性能上,模型在 SWE-Bench Pro 基准中与 GPT-5.3-Codex 持平或表现更优,同时延迟更低。Codex 的“/fast”模式可提升 1.5 倍 token 处理速度,保持同等智能水平。

工具生态方面,启用“工具搜索”功能后,模型在 Scale 的 MCP Atlas 基准测试中,总 token 消耗量减少 47%,同时维持准确率。Toolathlon 基准测试显示,其能用更少的交互轮次实现更高准确率。网络搜索能力在 BrowseComp 基准中提升 17 个百分点,GPT-5.4 Pro 版本更创下 89.3% 的新高。

安全性方面,模型延续 GPT-5.3-Codex 的防护措施,并引入“CoT 可控性”开源评估机制。测试发现,GPT-5.4 Thinking 控制思维链的能力较低,便于安全监控。定价策略上,API 每 token 价格高于 GPT-5.2,但更高的效率可降低总消耗。批量处理和 Flex 定价为标准费率的一半,优先处理为两倍。

发布计划显示,GPT-5.4 Thinking 即日起向 ChatGPT Plus、Team 和 Pro 用户开放,取代 GPT-5.2 Thinking。后者将在“遗留模型”部分保留至 2026 年 6 月 5 日。Enterprise 和 Edu 计划用户可通过管理员设置启用早期访问。GPT-5.4 Pro 面向 Pro 和 Enterprise 用户开放。API 中,模型以 gpt-5.4 和 gpt-5.4-pro 名称提供,Codex 支持 100 万 tokens 上下文窗口的实验性功能。OpenAI 强调,这是首个在 ChatGPT、API 和 Codex 同步推出的主流推理模型,未来 Instant 和 Thinking 版本将按不同节奏迭代。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version