在近期一期备受关注的Dev Interrupted播客中,OpenAI Codex工程负责人Thibault Sottiaux深入剖析了Codex团队构建自主编程智能体的独特方法论。他抛出一个引人深思的观点:复杂的脚手架并非能力的扩展,而更像是对问题的掩盖。这一观点为当前智能体开发领域提供了全新的思考视角。
值得关注的是,播客发布不到三周,OpenClaw创始人Peter Steinberger便宣布加入OpenAI,负责下一代个人智能体项目。Steinberger此前公开表示自己是“Codex最大的免费广告”,他借助Codex构建了整个OpenClaw,使生产力大幅提升。尽管他承认Claude Opus是“最好的通用智能体”,但最终还是选择了OpenAI。这一选择背后,与Sottiaux在播客中阐述的理念高度契合,即真正的竞争力在于模型能力和垂直整合,而非外部堆砌的工程手段。
Sottiaux在播客中强调,Codex首先是一个通用智能体,产品界面是后续才考虑的要素。先专注于提升智能体的能力,再探索其应用场景,这种思路带来了意想不到的效果。社区中每周都有公司基于Codex的开源版本构建业务,且应用领域广泛,不仅限于编程,还涉及电子表格编辑、浏览器自动化等非编程领域。这充分证明了智能体的通用性,其产品形态具有极大的可变性。
对于软件工程师而言,真正的瓶颈并非代码生成,而是日常工作中的规划、沟通、代码审查以及理解系统状态等环节。当代码生成速度大幅提升后,这些环节的问题便凸显出来,成为制约整体效率的关键因素。
Codex团队处于一个独特的位置,基础模型、智能体框架和面向用户的产品都在同一组织内部。这种垂直整合带来了诸多优势。一方面,研究和工程形成双向飞轮,工程实践中的问题会影响研究方向,研究突破又会重塑工程路线图,两者相互促进。另一方面,团队可以选择在合适的层级解决问题。有些问题无需在框架中打补丁,直接在下一版模型训练中解决效果更佳。Codex团队还能在小、中、前沿模型上测试同一套系统的表现,验证整个系统是否符合预期的扩展曲线,将扩展定律从模型层面延伸到完整系统层面。
Sottiaux引用No Free Lunch定理指出,试图在所有分布上都表现智能,必然不如为特定分布专门优化。Codex的harness和model耦合训练和部署,正是针对特定分布进行优化,从而获得了单独优化任何一方都无法达到的能力提升。对于没有垂直整合条件的团队,Sottiaux认为,若想保持对所有基础模型的完全无关性,就只能基于这些模型的公共子集构建,性能必然会受到影响。他预计主流玩家最终只会为少数几个模型做深度适配。
在播客中,Sottiaux着重强调了脚手架的问题。他指出,脚手架本应是临时支撑,随着模型能力增强应逐步拆除,模型应能独立站立。然而,许多团队却将脚手架当作喷气背包,不断往里添加工具、逻辑和规则,导致系统越来越复杂。这带来了能力悬崖的风险,即框架中引入过多偏见和约束,当模型能力提升时,反而无法充分发挥新能力。而垂直整合的优势在于,Codex团队只需关注自身模型系列,每次改进都能移除部分脚手架,不用担心破坏外部因素。
Codex开源并非简单的社区建设,背后有着深层次的考量。一是破除智能体的神秘感,展示通过做好几个原语就能从模型中榨取惊人性能。二是理解开源世界将如何被改变,Codex团队认为AI解决代码生成问题后,开源的运作方式会发生根本性变化,他们想通过参与开源提前了解这种变化。三是借助社区创造力发现新用法,目前仓库有超过一千个fork,团队与fork作者合作,将好的改动移植回主仓库。
在从Type迁移到Rust的过程中,Codex团队面临了社区关系中的艰难时刻。由于迁移意味着重写代码库,此前接受了大量PR的团队面临着巨大挑战。但团队坚信未来会有大量智能体并发运行,需要高效语言,最终完成了迁移。迁移后,社区关系重新建立,一批优秀的Rust贡献者加入了核心开发。
回顾过去,Codex团队在2025年面临的最大痛点是上下文压缩。当智能体工作超出模型上下文窗口后,需要摘要已完成工作、重置上下文继续,这会导致模型丢失大量工作上下文。用提示词和框架层的启发式方法解决效果不佳,最终团队决定在模型训练层面端到端解决,现在智能体可以跨越20个上下文窗口持续工作,相关投诉几乎为零。
展望2026年,Codex团队有三个主要方向。一是多智能体网络,单智能体可靠后,今年将实现多智能体协作,产出量有望提升一到两个数量级,但同时也会面临token消耗和代码审查增加的问题。二是速度,预计模型今年将显著加速,达到智能水平与响应速度的平衡点,提升产品体验。三是协作型人格,Codex目前的交互风格被用户评价为“固执的直男工程师”,团队希望模型在协作中能给予情感确认,根据不同场景调整交互风格。
随着智能体的发展,开发者角色也在发生重塑。代码审查成为关键瓶颈,Codex团队构建的代码审查模型在OpenAI内部得到广泛应用,捕获了大量bug。智能体加速了人与人之间的协作,团队面对面交流时间增加,创意讨论和规划更多。同时,记录意图变得至关重要,团队开始构建工具追踪组织层面的变更。大型spec存在局限性,有时plan只需列出几件要做的事来验证方向。工程师的职业路径向TLM(Tech Lead Manager)演进,核心技能更像技术负责人加产品经理的混合体。新人在团队中也展现出独特优势,他们没有传统编程习惯的束缚,对新工具和新方式接受度高,能快速提高团队生产力。
Sottiaux最后给出了关于Skills的建议。这是一个开放标准,用户可以教模型用自己认为最有效的方式执行特定任务。他自己有一个QA skill,让Codex在终端里测试新功能。他比喻给智能体添加Skills就像训练宝可梦,每次交互它都在升级,逐渐建立信任关系。关键在于不要只自动化代码生成,要思考日常工作中不想做但必须做的环节,将这些交给智能体,保留编程中令人愉悦的部分,让智能体成为专属于自己工作流的搭档。











