滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

GPT-5.5“靠谱”背后：跨过可靠性阈值，AI发展迈向新阶段

时间：2026-05-22 23:25:11 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

近期，人工智能领域的发展引发了广泛关注。GPT-5.5的发布和Claude Mythos的亮相，让网络安全、智能代理编程等领域的从业者明显感受到技术能力的跃升。人们不禁要问：AI的进步是真实加速，还是仅因关注度提升而产生的感知变化？针对这一问题，OpenAI后训练团队联合负责人Yann Dubois在MAD Podcast中分享了他的见解。

Yann指出，AI工具的实用性突破源于模型可靠性的提升。以OpenAI为例，去年12月模型可靠性达到关键阈值，能够稳定承担日常工作任务，这种变化在持续编码的开发者群体中尤为明显。他强调，模型能力的提升并非突变，而是持续积累的结果，但当可靠性达到临界点时，用户会产生"突然进步"的体验。模型能力的提升会形成正向循环——更强大的模型能加速下一代模型的研发，同时推理模型的应用场景正从竞赛级任务向真实世界问题迁移。

在GPT-5.5的研发过程中，跨部门协作和效率优化成为关键。Yann透露，该模型的开发是全公司共同努力的成果，团队在提升模型效率方面取得显著突破，多数任务的处理速度提升至前代的两倍。这种提升不仅体现在推理延迟的缩短，更源于模型在思考过程中对计算资源的更高效利用。他特别提到，模型能力的整合需要平衡垂直领域的深度与整体表现的稳定性，避免出现某些场景表现突出而其他场景表现薄弱的情况。

关于模型训练的三个阶段，Yann详细解释了预训练、中训练和后训练的分工。预训练通过扩大模型规模提升基础能力，中训练则聚焦于高质量数据的强化学习，后训练负责将模型能力转化为实际用户价值。他指出，多模态数据和合成数据是当前数据策略的重要方向，尽管多模态对推理能力的提升尚未得到完全验证，但在具身智能领域，与现实世界的交互仍是提升模型常识理解的关键。

在强化学习方面，Yann承认该技术曾面临稳定性挑战，但随着模型规模的扩大和基础设施的完善，其应用效果显著提升。他观察到，强化学习不仅优化了预训练中已有的能力，更释放出许多未被充分表现的新能力，如更强的推理、自我检查和延长思考时间等。对于训练方法的选择，他认为简单可扩展的方案更具优势，例如GRPO等朴素方法在开源社区表现出色。

针对模型泛化问题，Yann区分了算法泛化和能力泛化两种类型。他指出，虽然训练方法可以跨领域应用，但模型能力的迁移需要底层能力的支持。例如，数学竞赛能力可以迁移到编程领域，但难以直接应用于需要信息筛选和目标明确的真实工作场景。他特别提到，幻觉问题部分源于监督微调过程中对不确定信息的过度奖励，而强化学习通过采样评估机制能有效缓解这一问题。

在评测体系方面，Yann认为开放任务的评估难度正在增加。随着模型能力超越多数人类评估者，以及开放任务缺乏唯一正确答案的特性，构建有效的评测指标变得愈发困难。他看好"AI评AI"的发展方向，认为更强大的模型可以同时担任训练者和评估者的角色，形成能力提升的飞轮效应。对于垂直领域的应用开发，他鼓励创业者聚焦具体场景，解决权限管理、系统连接等"最后一公里"问题，这些领域存在巨大的价值创造空间。

更多>同类资讯

康迪科技子公司获施耐德电气经销授权推进AIDC备用电源及储能业务布局

07-02

学而思全新培优AI家教及旗舰学习机T6系列3款齐发，售价6899元起

07-02

AI芯片独角兽Etched 融资成功，估值飙升至50亿美元！

07-02

软银加码 AI 赛道：向 OpenAI 追加 100 亿美元投资

07-02

ChatGPT全球用户激增：非英语用户占比过半，全面跨越早期圈层

07-02

性能提升超两倍：英伟达发布 Nemotron-Labs-TwoTower 扩散语言模型

07-02

北京太空算力创新中心揭牌全球首个太空操作系统开源标准开启产业新篇

据介绍，北京太空算力创新中心落地海淀区的北京卫星小镇，定位为国内首个以拉通产业链，协同上下游为核心使命的太空算力创新中心，围绕太空原生算力芯片、太空算力载荷、太空算力卫星平台与标准体系、大模型部署与软硬件协…

07-02

NASA选定三家企业获5.9亿美元合同加速推进2030年前月球基地建设

北京时间7月1日，据彭博社报道，美国宇航局(NASA)又选定了三家公司向月球发射机器人着陆器，这是该机构在2030年前建立月球基地计划的一部分。 Astrobotic将于今年或2027年初向月球发射一台着陆…

07-02

Vibe Coding新趋势：Cursor与OpenClaw手机端上线，告别电脑不离身时代

07-02

从工厂到卧室：优必选百万级仿生机器人开启情感陪伴新赛道

07-02

OceanBase湖库一体架构：开启AI数据库一体化管理新时代

07-02

AI推理芯片新星Etched融资估值双升，国内芯片设计行业迎发展新机遇

07-02

软银持续加码AI：100亿美元已投OpenAI 10月拟再投百亿

07-02

ChatGPT用户版图持续拓展：非英语用户超半数，深度使用与场景多元双突破

07-02

英伟达开源新模型：双塔架构破解吞吐瓶颈，生成效率提升超两倍

07-02

点击查看更多 +

全站最新

MG07设计风波背后：品牌话语权之困与车圈舆论生态的双重审视

科技赋能出行新选择，小米克系列智能平衡车，带你畅享多元骑行乐趣

6月新势力销量揭晓：零跑破9万领跑鸿蒙理想小米各展风采

中国L3自动驾驶新规落地：安全底线划定，商业化黎明前的“紧箍咒”

邬贺铨：智能体融入工业互联网，发展脉络、机遇挑战与应对全解析

半程销量领跑，上汽自主新能源海外三线并进开启新篇章

热门内容

本栏最新

邬贺铨：智能体融入工业互联网，发展脉络、机遇挑战与应对全解析

岚图泰山X8纯电版7月交付，配置拉满，30万级SUV市场激战将启

iCAR V27首轮大规模OTA升级来袭智能驾驶等140余项功能焕新升级

iCAR V27首轮大规模OTA升级来袭智能驾驶安全座舱全面焕新升级

缤果PRO上市月余车主反馈：好看好开又实用，城市代步新选择

织密算力网络郑州打造全国算力“数纽”赋能数字中国建设

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.