OpenAI近日推出全新大模型GPT-5.4,在专业工作场景中展现出显著突破。该模型分为两个版本:面向复杂推理任务的Thinking版和满足企业高端需求的Pro版,分别针对付费用户和企业级客户开放。此次升级首次将前沿推理、编码与智能体能力整合至单一模型,标志着人工智能在专业领域的应用迈入新阶段。
在核心功能方面,GPT-5.4 Thinking新增"思考过程预览"功能,允许用户在模型响应过程中实时调整方向。该功能已在网页版和Android应用上线,iOS版本即将推出。模型在处理复杂查询时,能够预先展示推理思路,减少沟通成本。针对长上下文任务,新模型通过增强深度网络研究能力,在保持对话连贯性方面表现优异,特别在需要长时间思考的场景中,能持续追踪对话前序步骤。
计算机操控能力成为本次升级的最大亮点。GPT-5.4是OpenAI首个具备原生计算机使用能力的通用模型,支持通过屏幕截图和键盘鼠标指令操作计算机软件。在OSWorld-Verified基准测试中,该模型以75.0%的任务成功率超越人类平均水平72.4%,较前代GPT-5.2的47.3%实现质的飞跃。在WebArena-Verified浏览器测试中,结合DOM和截图驱动交互的成功率达67.3%,Online-Mind2Web测试中仅凭截图观察即实现92.8%的高成功率。
专业工作表现方面,新模型在44个职业领域的GDPval基准测试中,83.0%的项目达到或超过行业专业水平,前代模型这一比例为70.9%。在投行级电子表格建模任务中,GPT-5.4平均得分87.3%,较GPT-5.2的68.4%提升显著。演示文稿评估显示,68.0%的评审者更偏好新模型生成的内容,主要优势体现在美学设计、视觉变化和图像运用能力上。错误率方面,单个陈述错误率降低33%,完整回答出现错误的可能性减少18%。
编码能力持续强化,GPT-5.4融合了GPT-5.3-Codex的编码优势,在SWE-Bench Pro基准测试中表现持平或更优,同时延迟更低。Codex的"/fast"模式使token生成速度提升1.5倍,保持同等智能水平。新增的"工具搜索"功能在Scale MCP Atlas基准测试中,在维持准确率的前提下减少47%的token消耗量。Toolathlon基准测试显示,新模型能用更少交互轮次实现更高准确率。
视觉感知能力同步提升,在MMMU-Pro视觉理解测试中取得81.2%的成功率,OmniDocBench文档解析测试的平均错误率降至0.109。网络搜索能力在BrowseComp基准测试中较前代提升17个百分点,Pro版本更创下89.3%的新高。安全性方面,新模型延续前代安全防护措施,引入"CoT可控性"开源评估,降低思维链控制风险。
定价策略采用效率优先模式,API接口中GPT-5.4每百万输入token定价2.5美元,输出token15美元;Pro版本分别为30美元和180美元。尽管单价较前代有所上涨,但更高的token效率使许多任务的总成本降低。批量处理和Flex定价为标准费率的一半,优先处理为两倍费率。
发布计划显示,GPT-5.4 Thinking即日起面向ChatGPT Plus、Team和Pro用户开放,逐步取代GPT-5.2 Thinking版本。前代模型将在"遗留模型"部分保留三个月至2026年6月5日退役。Enterprise和Edu计划用户可通过管理员设置启用早期访问,Pro和Enterprise用户可申请使用GPT-5.4 Pro版本。API层面,新模型以gpt-5.4名称提供支持,Pro版本命名为gpt-5.4-pro,Codex支持100万token上下文窗口的实验性功能。











