ITBear旗下自媒体矩阵:

GPT-5.3-Codex刷新多项AI编程基准成绩

   时间:2026-02-09 11:29:16 来源:鞭牛士编辑:快讯 IP:北京 发表评论无障碍通道
 

AIPress.com.cn报道

OpenAI 近日正式发布 GPT-5.3-Codex,这是其迄今为止最先进的代码专用 AI 代理模型。OpenAI 表示,该模型在性能与响应速度上均较上一代 GPT-5.2-Codex 实现显著提升,面向专业软件开发和工程级工作流设计。

在性能方面,GPT-5.3-Codex 在多项权威基准测试中取得新纪录。在 SWE-bench Pro(Public)测试中,该模型准确率达到 56.8%。该基准主要用于评估模型在多语言软件工程任务中的综合能力,被视为衡量代码代理实用性的核心指标之一。

提升最为明显的体现在 Terminal-Bench 2.0 上。这一基准重点评估模型在终端环境中执行命令、完成系统级操作的能力。GPT-5.3-Codex 在该测试中的成绩从上一代的 64.0% 提升至 77.3%,显示其在真实开发环境下的操作稳定性和执行准确性明显增强。

在 OSWorld-Verified 基准测试中,GPT-5.3-Codex 取得 64.7% 的成绩。该测试衡量模型结合计算机视觉完成桌面级任务的能力,其得分已接近人类平均水平(72%),并显著高于上一代模型的 38.2%。

在产品功能上,OpenAI 为 Codex 应用引入了新的“指导(guidance)”能力,使开发者可以在模型执行复杂工程任务的过程中进行实时交互,包括调整方向、补充信息以及协同调试。这一机制旨在避免传统代码生成过程中上下文中断的问题,使模型更贴近真实开发协作流程。

在底层基础设施方面,GPT-5.3-Codex 的训练和部署运行在 NVIDIA GB200 NVL72 系统之上。OpenAI 表示,该系统体现了其与 NVIDIA 的协同设计成果,重点优化推理性能,并在复杂任务中降低 token 使用成本。

在安全与合规层面,OpenAI 在其 Preparedness framework 中将 GPT-5.3-Codex 归类为“高能力(High Capability)”模型,尤其是在生物安全和网络安全相关任务中。该模型接受了针对软件漏洞识别的专项训练,并配套实施了更严格的自动化监控机制和受控访问策略,用于防御性研究用途。

整体来看,GPT-5.3-Codex 被 OpenAI 视为从“代码助手”向“自主工程代理”转变的重要节点,其核心特征包括更低延迟、更强的多语言工程能力,以及跨环境执行复杂任务的能力。(AI普瑞斯编译)

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version