GPT-5.3-Codex刷新多项AI编程基准成绩

时间：2026-02-09 11:29:16 来源：鞭牛士编辑：快讯 IP：北京 发表评论无障碍通道

AIPress.com.cn报道

OpenAI 近日正式发布 GPT-5.3-Codex，这是其迄今为止最先进的代码专用 AI 代理模型。OpenAI 表示，该模型在性能与响应速度上均较上一代 GPT-5.2-Codex 实现显著提升，面向专业软件开发和工程级工作流设计。

在性能方面，GPT-5.3-Codex 在多项权威基准测试中取得新纪录。在 SWE-bench Pro（Public）测试中，该模型准确率达到 56.8%。该基准主要用于评估模型在多语言软件工程任务中的综合能力，被视为衡量代码代理实用性的核心指标之一。

提升最为明显的体现在 Terminal-Bench 2.0 上。这一基准重点评估模型在终端环境中执行命令、完成系统级操作的能力。GPT-5.3-Codex 在该测试中的成绩从上一代的 64.0% 提升至 77.3%，显示其在真实开发环境下的操作稳定性和执行准确性明显增强。

在 OSWorld-Verified 基准测试中，GPT-5.3-Codex 取得 64.7% 的成绩。该测试衡量模型结合计算机视觉完成桌面级任务的能力，其得分已接近人类平均水平（72%），并显著高于上一代模型的 38.2%。

在产品功能上，OpenAI 为 Codex 应用引入了新的“指导（guidance）”能力，使开发者可以在模型执行复杂工程任务的过程中进行实时交互，包括调整方向、补充信息以及协同调试。这一机制旨在避免传统代码生成过程中上下文中断的问题，使模型更贴近真实开发协作流程。

在底层基础设施方面，GPT-5.3-Codex 的训练和部署运行在 NVIDIA GB200 NVL72 系统之上。OpenAI 表示，该系统体现了其与 NVIDIA 的协同设计成果，重点优化推理性能，并在复杂任务中降低 token 使用成本。

在安全与合规层面，OpenAI 在其 Preparedness framework 中将 GPT-5.3-Codex 归类为“高能力（High Capability）”模型，尤其是在生物安全和网络安全相关任务中。该模型接受了针对软件漏洞识别的专项训练，并配套实施了更严格的自动化监控机制和受控访问策略，用于防御性研究用途。

整体来看，GPT-5.3-Codex 被 OpenAI 视为从“代码助手”向“自主工程代理”转变的重要节点，其核心特征包括更低延迟、更强的多语言工程能力，以及跨环境执行复杂任务的能力。（AI普瑞斯编译）

NASA 期待已久的阿尔忒弥斯 II 号任务的发射本周占据了科学新闻的主导地位，随着这一美国航天局 50多年来首次载人登月任务从佛罗里达州卡纳维拉尔角发射升空，兴奋情绪在本周达到了顶峰。在地球科学领域，…

青岛市民政局相关负责人表示，民政领域有着丰富的真实服务场景和实际需求，青岛市建立该中心的目的，就是构建开放共享的生态，推动机器人研发集成、安全化和规模化应用。据了解，为让机器人真正拥有“大脑”，优宝特科研…

控制系统，通常是可编程逻辑控制器或运动控制卡，负责解析指令并向各轴驱动器发送脉冲信号，协调多轴联动，确保末端执行器按既定路径和速度运行。因此，这类沿桁架轨迹运动的工业机器人，其技术实质是机电一体化与运动控制…

一是专门设计了一层“Lint+Heal”机制，本质上就是让大模型定期扫描整个知识库，自动发现不一致的数据、补全缺失信息，甚至主动建议新增条目，必要时还可以通过外部搜索把空缺补齐。二是在更底层，提供了一套C…

安逸云科技，专注于大模型应用落地、农业数字化升级、AI智能体构建与行业解决方案输出，致力于为企业提供可落地、可扩展、可持续优化的智能化能力。大模型应用开发与私有化部署 AI智能体（Agent）系统构建农…

在权益保护方面，征求意见稿要求任何组织和个人使用自然人敏感个人信息用于建模、形象生成、场景构建等活动的，应当遵守法律、行政法规，并且符合规定对“取得自然人的单独同意”“自然人撤回同意后”的操作、“尊重他人合…

在世界科幻公园上空，泛光秀、光影水秀轮番上演，憨态可掬的熊猫穿梭竹林，火锅搭配盖碗茶的造型尽显烟火韵味，川剧脸谱彰显巴蜀风情……据了解，本次无人机表演是成都科幻馆常态化运营以来首次举办的大规模户外夜间展演活…

全封闭地轨适用于焊接、打磨等粉尘污染严重的场景，能有效保护内部传动部件，延长设备使用寿命；半封闭地轨兼顾防护性与经济性，适用于常规自动化产线；防爆、防腐地轨则满足化工、海洋等特殊工况下的安全生产需求。在襄阳进…

无论是超大型钢结构构件、重型机械部件，还是船舶分段工件，在中科智造的重载地轨加持下，都能实现高效、精准的自动化作业。总之，中科智造装备（湖北）作为宜昌正规的机器人地轨厂家，以其高安全性的产品和服务，为众多行…

核心板支持Nidda Jetson AGX Orin 275TOPS INT8算力，有12核Arm@Cortex-A78AE v8.2 64位CPU等配置，典型场景为智能助手一体机，可配合32G+内存PC实…

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.