OpenAI近日宣布推出全新一代模型GPT-5.4,这款模型将编程、推理、计算机操控、网页搜索及百万级Token上下文处理等多项能力整合于一体,在保持各项功能原有水准的同时,实现了性能的全面升级。这一突破性进展标志着AI应用从单一任务处理向复杂工作流整合迈出关键一步。
在知识工作领域,GPT-5.4展现出超越专业人士的实力。基于覆盖9个主要行业、44种职业的GDPval基准测试,该模型在财务建模、急诊排班、销售演示等实际工作场景中,83%的输出结果达到或超过行业专家水平。法律平台Harvey的测试显示,其在复杂法律文书处理中得分高达91%,较前代模型提升13个百分点。特别在电子表格建模任务中,初级投行分析师模拟测试得分从68.4%跃升至87.3%,错误率降低33%,完整回复错误概率下降18%。
编程能力整合成为开发者关注的焦点。新模型将Codex的编程功能无缝融入主线架构,在SWE-Bench Pro软件工程基准测试中取得57.7%的成绩,较前代提升2.1个百分点。实验性功能Playwright Interactive支持可视化实时调试,开发者可同步进行代码编写与应用测试。某博主使用该功能在24分钟内完成Minecraft克隆版开发,运行流畅无卡顿。沃顿商学院教授通过单条提示词生成三维空间场景的案例,直观展现了模型在复杂项目开发中的效率提升。
计算机操控能力实现质的飞跃。原生内置的操作系统交互功能使模型可直接处理截图输入,在OSWorld-Verified桌面导航测试中以75%成功率超越人类基准(72.4%)。物业税务表单自动填写系统部署案例显示,首次成功率达95%,会话速度提升3倍,Token消耗降低70%。这得益于模型支持的1024万像素高保真图像输入模式,以及256万像素高清模式的升级。
工具调用机制的创新带来显著成本优势。通过动态工具检索系统,模型在250项任务测试中减少47%的Token消耗,同时保持准确率不变。网页搜索持续性表现突出,BrowseComp基准得分82.7%,Pro版本更达89.3%,在复杂查询场景中展现出持续深挖信息的能力。某自动化平台CEO评价称,该模型在搜索深度和结果完整性方面树立了新标杆。
百万级Token上下文支持开启长文档处理新纪元。API接口现已支持100万Token输入,实际测试显示272K以下区间性能稳定,适合日常使用。某数学基准测试中,模型在50道研究级难题中取得38%正确率,较前代提升6.7个百分点,展示出处理复杂逻辑推理的潜力。不过超长上下文使用需注意成本问题,272K以上请求将按双倍配额计费。
交互体验革新体现在执行过程可控性增强。新增的"中途打断"功能允许用户在模型执行计划阶段介入调整,避免重复劳动。某科技公司创始人分享的案例显示,简单问候语触发过度推理导致高额消耗,提示用户需根据任务复杂度选择标准版或Pro版。这种灵活配置模式既满足轻量级需求,又支持高强度推理场景。
该模型已向ChatGPT高级用户开放,逐步替代原有思考模型。API定价体系区分标准版与Pro版,后者输入输出成本分别为30美元/百万Token和180美元/百万Token。批量处理享受五折优惠,优先处理则需支付双倍费用。这种差异化定价策略为不同规模企业提供灵活选择空间。











