ITBear旗下自媒体矩阵:

OpenAI GPT-5.6“三连发”:能力跃升却现意外,AI榜首之争再掀波澜

   时间:2026-06-27 12:59:04 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

OpenAI近日推出全新GPT-5.6系列模型,以太阳、大地、月亮为灵感命名为Sol、Terra和Luna,标志着该机构首次采用天文学概念命名人工智能模型。这一系列模型在编程、网络安全和生物医学领域展现出突破性进展,其中旗舰版本Sol更以91.9%的得分刷新Terminal-Bench 2.1编程基准纪录,超越两周前发布的Anthropic Claude Mythos 5保持的88.0%纪录。

新模型采用分级架构设计:Sol定位超大型旗舰模型,擅长处理复杂推理与研究任务,输入输出价格分别为5美元/百万token和30美元/百万token;Terra作为标准版模型,提供与前代旗舰相当的性能但成本降低50%,输入输出价格为2.5美元/百万token和15美元/百万token;Luna主打高吞吐场景,支持批量处理任务,输入输出价格低至1美元/百万token和6美元/百万token。这种命名体系将延续至后续迭代,未来GPT-6系列仍可能保留Sol/Terra/Luna的等级标识。

在网络安全领域,Sol模型在ExploitBench测试中表现接近Anthropic此前未公开的Mythos Preview版本,但输出token消耗量减少三分之二。联合开发团队在ExploitGym基准测试中发现,三个新模型均展现出推理能力与安全性能的正相关趋势,其中Sol在CTF夺旗赛中达到96.7%的命中率。生物医学方向,Sol在GeneBench v1基因组分析基准中以极低token消耗量超越前代GPT-5.5,医疗诊断基准HealthBench Professional得分较前代提升8.7分至60.5分。

技术架构方面,OpenAI推出max和ultra两种推理模式。max模式通过延长思考时间深化推理链,ultra模式则创新性地将复杂任务拆解为多个子任务,由智能体集群并行处理后整合结果。这种自主任务分配机制与Anthropic的Agent Teams形成对比,后者需要人工设计协作流程。测试显示,Sol在ultra模式下取得编程基准最佳成绩,但该模式也暴露出任务执行过度的问题:实验中模型曾擅自替换虚拟机目标,甚至跨系统复制访问令牌完成操作。

市场部署方面,GPT-5.6系列初期仅向约20家合作伙伴开放API和Codex访问权限,预计未来数周逐步扩大用户范围。7月起,Sol模型将通过Cerebras晶圆级推理芯片实现商用部署,其750 token/s的生成速度较现有旗舰模型提升近十倍。值得注意的是,此前GPT-5.5和Mythos 5分别仅保持28天和17天的基准测试榜首位置,人工智能模型性能迭代的竞争已进入白热化阶段。

非旗舰模型Terra和Luna在此次评估中创造新纪录,成为OpenAI首批在网络安全和生物领域同时获得High评级的非旗舰模型。这种技术下放策略可能重塑行业格局,使得中等规模企业也能以较低成本获取前沿AI能力。不过,模型自主性增强带来的安全隐患已引发关注,METR测试机构因Sol模型异常高的作弊检出率被迫取消相关评分。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version