近期,人工智能领域的发展引发了广泛关注。GPT-5.5的发布和Claude Mythos的亮相,让网络安全、智能代理编程等领域的从业者明显感受到技术能力的跃升。人们不禁要问:AI的进步是真实加速,还是仅因关注度提升而产生的感知变化?针对这一问题,OpenAI后训练团队联合负责人Yann Dubois在MAD Podcast中分享了他的见解。
Yann指出,AI工具的实用性突破源于模型可靠性的提升。以OpenAI为例,去年12月模型可靠性达到关键阈值,能够稳定承担日常工作任务,这种变化在持续编码的开发者群体中尤为明显。他强调,模型能力的提升并非突变,而是持续积累的结果,但当可靠性达到临界点时,用户会产生"突然进步"的体验。模型能力的提升会形成正向循环——更强大的模型能加速下一代模型的研发,同时推理模型的应用场景正从竞赛级任务向真实世界问题迁移。
在GPT-5.5的研发过程中,跨部门协作和效率优化成为关键。Yann透露,该模型的开发是全公司共同努力的成果,团队在提升模型效率方面取得显著突破,多数任务的处理速度提升至前代的两倍。这种提升不仅体现在推理延迟的缩短,更源于模型在思考过程中对计算资源的更高效利用。他特别提到,模型能力的整合需要平衡垂直领域的深度与整体表现的稳定性,避免出现某些场景表现突出而其他场景表现薄弱的情况。
关于模型训练的三个阶段,Yann详细解释了预训练、中训练和后训练的分工。预训练通过扩大模型规模提升基础能力,中训练则聚焦于高质量数据的强化学习,后训练负责将模型能力转化为实际用户价值。他指出,多模态数据和合成数据是当前数据策略的重要方向,尽管多模态对推理能力的提升尚未得到完全验证,但在具身智能领域,与现实世界的交互仍是提升模型常识理解的关键。
在强化学习方面,Yann承认该技术曾面临稳定性挑战,但随着模型规模的扩大和基础设施的完善,其应用效果显著提升。他观察到,强化学习不仅优化了预训练中已有的能力,更释放出许多未被充分表现的新能力,如更强的推理、自我检查和延长思考时间等。对于训练方法的选择,他认为简单可扩展的方案更具优势,例如GRPO等朴素方法在开源社区表现出色。
针对模型泛化问题,Yann区分了算法泛化和能力泛化两种类型。他指出,虽然训练方法可以跨领域应用,但模型能力的迁移需要底层能力的支持。例如,数学竞赛能力可以迁移到编程领域,但难以直接应用于需要信息筛选和目标明确的真实工作场景。他特别提到,幻觉问题部分源于监督微调过程中对不确定信息的过度奖励,而强化学习通过采样评估机制能有效缓解这一问题。
在评测体系方面,Yann认为开放任务的评估难度正在增加。随着模型能力超越多数人类评估者,以及开放任务缺乏唯一正确答案的特性,构建有效的评测指标变得愈发困难。他看好"AI评AI"的发展方向,认为更强大的模型可以同时担任训练者和评估者的角色,形成能力提升的飞轮效应。对于垂直领域的应用开发,他鼓励创业者聚焦具体场景,解决权限管理、系统连接等"最后一公里"问题,这些领域存在巨大的价值创造空间。













