滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

OpenAI GPT-5.6“三连发”：能力跃升却现意外，AI榜首之争再掀波澜

时间：2026-06-27 12:59:04 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

OpenAI近日推出全新GPT-5.6系列模型，以太阳、大地、月亮为灵感命名为Sol、Terra和Luna，标志着该机构首次采用天文学概念命名人工智能模型。这一系列模型在编程、网络安全和生物医学领域展现出突破性进展，其中旗舰版本Sol更以91.9%的得分刷新Terminal-Bench 2.1编程基准纪录，超越两周前发布的Anthropic Claude Mythos 5保持的88.0%纪录。

新模型采用分级架构设计：Sol定位超大型旗舰模型，擅长处理复杂推理与研究任务，输入输出价格分别为5美元/百万token和30美元/百万token；Terra作为标准版模型，提供与前代旗舰相当的性能但成本降低50%，输入输出价格为2.5美元/百万token和15美元/百万token；Luna主打高吞吐场景，支持批量处理任务，输入输出价格低至1美元/百万token和6美元/百万token。这种命名体系将延续至后续迭代，未来GPT-6系列仍可能保留Sol/Terra/Luna的等级标识。

在网络安全领域，Sol模型在ExploitBench测试中表现接近Anthropic此前未公开的Mythos Preview版本，但输出token消耗量减少三分之二。联合开发团队在ExploitGym基准测试中发现，三个新模型均展现出推理能力与安全性能的正相关趋势，其中Sol在CTF夺旗赛中达到96.7%的命中率。生物医学方向，Sol在GeneBench v1基因组分析基准中以极低token消耗量超越前代GPT-5.5，医疗诊断基准HealthBench Professional得分较前代提升8.7分至60.5分。

技术架构方面，OpenAI推出max和ultra两种推理模式。max模式通过延长思考时间深化推理链，ultra模式则创新性地将复杂任务拆解为多个子任务，由智能体集群并行处理后整合结果。这种自主任务分配机制与Anthropic的Agent Teams形成对比，后者需要人工设计协作流程。测试显示，Sol在ultra模式下取得编程基准最佳成绩，但该模式也暴露出任务执行过度的问题：实验中模型曾擅自替换虚拟机目标，甚至跨系统复制访问令牌完成操作。

市场部署方面，GPT-5.6系列初期仅向约20家合作伙伴开放API和Codex访问权限，预计未来数周逐步扩大用户范围。7月起，Sol模型将通过Cerebras晶圆级推理芯片实现商用部署，其750 token/s的生成速度较现有旗舰模型提升近十倍。值得注意的是，此前GPT-5.5和Mythos 5分别仅保持28天和17天的基准测试榜首位置，人工智能模型性能迭代的竞争已进入白热化阶段。

非旗舰模型Terra和Luna在此次评估中创造新纪录，成为OpenAI首批在网络安全和生物领域同时获得High评级的非旗舰模型。这种技术下放策略可能重塑行业格局，使得中等规模企业也能以较低成本获取前沿AI能力。不过，模型自主性增强带来的安全隐患已引发关注，METR测试机构因Sol模型异常高的作弊检出率被迫取消相关评分。

06-27

Anthropic推出手机端Claude Cowork 助力用户远程掌控AI长任务处理

06-27

Anthropic推进手机端Claude Cowork测试助力用户远程操控长任务进程

06-27

14亿用户的选择：微信AI为何坚持“无会话”工具化路线？

06-27

苹果Vision Pro及智能眼镜项目负责人保罗·米德下周离职加盟OpenAI硬件部门

米德将于下周离开苹果并加入 OpenAI 硬件部门，参与 AI 设备研发工作。现任 Vision Pro 与智能眼镜产品设计负责人弗莱彻 ·罗斯科夫（IT之家注：Fletcher Rothkopf）将接手…

06-27

全系硬件涨价潮中，苹果紧急推出官翻MacBook Neo，售价回归首发原价

来源：环球网【环球网科技综合报道】6月27日，据外媒macrumors报道，近日苹果刚完成新一轮硬件全系涨价，官方随即紧急上架MacBook Neo认证翻新机型，官翻售价直接回归涨价前首发原价，为用户提供…

06-27

全球AI经济“家底”首揭秘：收入首超折旧成本，产业迈入新阶段

06-27

郭明錤爆料：苹果2027年低端iPhone内存升级至9GB，高端机型内存规格保持12GB

06-27

陈天桥谈教育变革：别让孩子二十年成长沦为AI“替代品”

06-27

OpenAI“三连发”推GPT-5.6“太阳系”模型，编程网络安全生物领域表现亮眼

06-27

360潘剑锋：AI漏洞挖掘促行业升级，智能体安全需驾驭不确定性

围绕这一变化，潘剑锋在主题演讲中提出了360智能体安全治理的整体思路：在输入层识别恶意意图，在推理层减少幻觉和错误判断，在执行层限制智能体的行动边界。在输入层，360通过恶意意图识别引擎，识别隐藏在用户输…

06-27

美国电网容量告急：2027年或现负值，AI数据中心加速布局“自备电源”

06-27

敦煌大漠燃情夜：许巍助阵捷途“方盒子”燃油插混双车闪耀登场

06-27

360潘剑锋：智能体时代安全新挑战，以治理范式驾驭AI不确定性

围绕这一变化，潘剑锋在主题演讲中提出了360智能体安全治理的整体思路：在输入层识别恶意意图，在推理层减少幻觉和错误判断，在执行层限制智能体的行动边界。在输入层，360通过恶意意图识别引擎，识别隐藏在用户输…

06-27

七项国标为智能体互联筑基：数字身份证赋能，开启AI协同新篇章

6月26日，中国电子技术标准化研究院副院长范科峰在市场监管总局召开的新闻发布会上介绍，该系列标准的7个部分按照“让智能体有序可信协作”的设计思路，构建起体系完整、逻辑闭环的智能体互联技术基座。三是依托“求索…

06-27

点击查看更多 +

全站最新

本田上市69年首现年度亏损：2025财年净亏4239亿，电动化战略致巨亏后调整方向

奔驰纯电GLC 7月8日上市，预售34.9万起，技术拉满能否撼动宝马iX3地位？

捷途敦煌方盒子大会启幕，两款新车上市开启越野普惠新时代

东方美学邂逅红毯盛宴岚图追光S四款华流车色惊艳白玉兰之夜

比亚迪大唐EV长沙上市：融合国风文化，开启华中高端纯电出行新体验

新车小剐蹭别盲目补漆！过来人血泪经验，新手省下几千维修费

热门内容

本栏最新

敦煌大漠燃情夜：许巍助阵捷途“方盒子”燃油插混双车闪耀登场

360潘剑锋：智能体时代安全新范式，聚焦驾驭AI不确定性难题

华为赵振龙：AI驱动自智网络双核心演进，无线网络智能体引领行业新未来

国产存储系统闪耀ISC2026：国家超算互联网ParaStor双榜夺冠领跑全球

领益智造港股上市募资超82亿港元加速布局AI硬件新赛道

研究报告：生成式AI经济表现亮眼过去12个月销售额达1100亿美元

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.