OpenAI今日正式推出GPT-5.4系列模型,同步上线ChatGPT、API及Codex平台。作为首款具备原生计算机操作能力的通用大模型,GPT-5.4在电脑操控、知识工作、工具调用等核心场景实现全面突破,官方测评显示其综合性能显著超越GPT-5.2、Claude Opus 4.6及Gemini 3.1 Pro等主流模型。
在知识工作领域,GPT-5.4展现出显著优势。基于GDPval测试体系评估,该模型在44个职业场景中产出专业成果的能力达到行业专家水平的83%,较前代模型提升12.1个百分点。具体任务中,电子表格建模得分提升至87.3%,PPT生成效果获得68%的人类评审偏好,其视觉呈现与信息组织能力获得广泛认可。针对事实准确性问题,新模型将单个错误概率降低33%,整段回答错误率减少18%,成为OpenAI迄今最可靠的模型。
计算机操作能力是本次升级的核心亮点。GPT-5.4通过Playwright等库实现跨应用自动化操作,支持基于屏幕截图的鼠标键盘指令生成。在OSWorld-Verified桌面环境测试中,该模型以75%的成功率超越人类基准(72.4%),较GPT-5.2提升27.7个百分点。浏览器操作测试WebArena-Verified显示,结合DOM交互与视觉识别的混合模式使成功率提升至67.3%。视觉感知方面,新模型在MMMU-Pro基准测试中取得81.2%的准确率,文档解析误差率降至0.109,较前代优化29%。
针对高分辨率视觉处理需求,OpenAI推出双精度模式:原始精度模式支持最高1024万像素输入(最大边长6000像素),高精度模式支持256万像素(最大边长2048像素)。早期测试表明,高精度输入可显著提升模型的空间定位能力与图像理解准确性,在医疗影像分析等专业场景具有应用潜力。
编程能力方面,GPT-5.4继承并优化了Codex的代码生成优势。SWE-Bench Pro测试显示,新模型在复杂前端任务中的表现超越所有前代版本,开启/fast模式后token生成速度提升1.5倍。实验性功能"Playwright交互式"支持视觉化网页调试,开发者可实时测试Electron应用开发过程。某主题公园模拟游戏开发案例显示,该模型能通过简短提示词自动生成等距视角美术资源并完成浏览器端实机测试。
工具生态系统建设取得重要进展。API平台新增工具搜索功能,使模型在处理多步骤任务时能动态检索工具定义,减少30%的token消耗。Toolathlon基准测试表明,GPT-5.4完成邮件处理、文件上传、数据录入等跨平台任务的交互轮次减少40%,准确率提升至92%。网页搜索能力BrowseComp评分跃升17%,Pro版本达89.3%,可持续追踪多轮搜索结果并定位关键信息源。
商业化部署方面,GPT-5.4思考模式即日起向ChatGPT Plus、Team及Pro用户开放,原有GPT-5.2模式将保留至6月5日。Pro版本专为复杂任务优化,企业用户可获得优先处理权限。定价策略显示,新模型输入成本上涨超40%,输出成本增加7.14%,但官方强调更高的token效率可使多数任务总成本下降。Codex平台提供百万级上下文窗口实验支持,超出标准272K的请求按双倍额度计费,批量处理享受标准费率五折优惠。
行业分析指出,GPT-5.4的发布标志着AI从辅助工具向自主工作流引擎的转变。其原生计算机操作能力与专业场景适配性,使模型能直接参与数据分析、客户服务等高价值商业流程。随着工具生态系统的扩展,智能体在跨平台任务自动化领域的潜力将持续释放,可能重塑知识密集型行业的运作模式。











