OpenAI在毫无预兆的情况下,于深夜发布了GPT5.5版本,这款新型智能模型主打实际应用与智能体协作,迅速引发科技圈热议。官方宣称,该版本聚焦于Agent编程、知识型工作及科研场景,现已向ChatGPT与Codex的Plus、Business、Enterprise用户开放,API接口也将随后上线。
第三方评测数据显示,GPT5.5在多项关键指标上表现亮眼。在针对20小时长周期软件工程的Expert-SWE测试中,其成功率达到73.1%,较前代GPT5.4提升4.6个百分点;在复杂命令行工作流评估Terminal-Bench2.0中,以82.7%的得分远超Claude的69.4%。知识任务GDPval、高级数学FrontierMath及真实电脑操作OSWorld-Verified等测试中,GPT5.5均领先主要竞争对手。
编程能力方面,GPT5.5虽在SweetBench Pro测试中以58.6%的得分略逊于Opus4.7的64.3%,但OpenAI指出,该评测存在过拟合问题,难以真实反映模型能力。网络安全领域则成为GPT5.5的亮点——在CyberGym测试中以81.8%的得分超越Opus4.7的73.1%,CTF“夺旗”挑战得分更提升至88.1%,较前代增长4.4个百分点。
OpenAI强调,GPT5.5的核心突破在于从“辅助决策”转向“自主执行”。用户可直接抛出复杂任务,模型将自动拆解目标、规划步骤、调用工具并修正错误,最终交付成果。例如,OpenAI财务团队利用该模型完成24771份、总计7万余页的税表审核,较往年提前两年完工;公司内部超85%的员工已跨部门使用搭载GPT5.5的Codex。
尽管性能显著提升,GPT5.5仍存在局限性。第三方评测指出,其对任务边界的依赖性较强,若用户需求描述模糊,模型倾向于按现有信息执行而非主动补全。这种“严格服从”特性在特定场景下可能影响效率。
速度与成本优化是GPT5.5的另一大亮点。OpenAI宣称,在智能水平大幅提升的同时,模型响应速度与前代持平;Token消耗更降至前代的1/36,同类Codex任务中所需Token也更少。尽管API价格涨至每百万Token 5美元(Pro版30美元),但因效率提升与资源节省,实际使用成本增幅有限。
OpenAI总裁格雷格·布罗克曼表示,公司目标之一是让前沿AI能力惠及企业与普通用户。与此同时,其主要竞争对手Anthropic近期陷入争议:长期主打的安全特性被曝漏洞、对重度付费用户限流、大规模封号事件频发,叠加高昂的Token费用与消耗,用户抱怨“难以承受”。随着算力充足的OpenAI持续发力,而Anthropic因算力紧张体验打折,两者差距或进一步扩大。











