ITBear旗下自媒体矩阵:

全新命名! GPT-5.6最强「太阳」来了,完爆Mythos 5

   时间:2026-06-27 21:00:45 来源:鞭牛士编辑:快讯 IP:北京 发表评论无障碍通道
 

突袭!OpenAI凌晨发布了GPT-5.6全系列。

想来是受到了老对家Anthropic的影响,本次发布的名字与以往完全不同。

OpenAI首次采用天体命名。

Sol在拉丁语中是太阳的意思,这是旗舰级模型,也是OpenAI目前最强的模型。

GPT-5.6 Sol价格为输入5美元/百万token,输出30美元/百万token。

Terra在拉丁语中是地球/大地的意思,这是适合日常工作的平衡型模型,在保持与上一代主力模型GPT-5.5同等性能的前提下,价格直接腰斩。

GPT-5.6 Terra输入2.5美元/百万token,输出15美元/百万token。

Luna在拉丁语中译为月亮,则是以最低的成本提供强大的处理能力,这是 GPT-5.6系列里最便宜的模型。

GPT-5.6 Luna输入1美元/百万token,输出6美元/百万token。

作为对比,Claude Fable 5输入10美元/百万token,输出50美元/百万token。也就是说,在旗舰模型这一档,GPT-5.6 Sol的价格已经降到了Fable 5的一半左右。

随着OpenAI主动下调价格,硅谷大模型之间的新一轮价格战,已经正式打响。

在 GPT-5.6 中引入的新命名系统中,数字用标识代际,Sol/Terra/Luna标识不同的能力层级。

据OpenAI官方说明,这些等级可以按照各自的节奏进行发展。总的来说,这一命名体系为用户和开发者在智能性、速度和成本方面提供了更清晰的选择。

不过,与以往新模型发布最大的不同是,这一次OpenAI并没有第一时间向所有用户开放,而是仅提供给一小部分受信任合作伙伴进行测试。

OpenAI表示,未来几周内,GPT-5.6将陆续开放给ChatGPT用户、API开发者以及Codex用户。

重磅

两种新的推理模式

在GPT-5.6 Sol中,OpenAI新增了一个名为Max Reasoning的新模式。

简单理解,就是允许模型花更多时间思考。

通过延长思考时间,模型能够理清更复杂的逻辑链条,从而大幅提升回答高难度问题时的准确率。

OpenAI还新增了Ultra模式,这是GPT-5.6最大的亮点之一。

OpenAI首次引入多个AI子代理(Subagents)协同工作的模式。

以前,一个问题由一个模型完成。

现在,一个复杂任务可以拆分给多个AI分别处理,再汇总结果。

这种方式本质上已经越来越接近一个真正的AI团队,这也是整个AI行业目前共同的发展方向。

Sol登顶

Mythos 5称霸仅17天

GPT-5.6 Sol作为OpenAI目前最强大的模型,本次在编程、生物学和网络安全领域上实现重大突破。

OpenAI此次公布了多项测试成绩。

在编码工作流程方面,GPT-5.6 Sol Ultra在Terminal-Bench 2.1测试平台上跑出了91.9%,拿下了最高分。

Sol的普通模式也足足有88.8%,拿下第二。

横向对比一下,Anthropic的Claude Mythos 5在同一基准上是88.0%,Fable 5则是84.3%。

而同为御三家的Gemini目前最强模型Gemini 3.1 Pro Preview,只有70.7%,排名垫底。

Gemini现在只能去小孩那桌了。

GPT-5.6 Sol在生物学工作流程方面也取得了显著的改进。

在GeneBench v1测试中,该模型在评估长期范围的基因组学和定量生物学分析时,其表现优于GPT-5.5,同时使用的token更少。

OpenAI表示,GPT-5.6 Sol是其迄今为止在网络安全领域最强大的模型。

它在处理长期安全任务时,无论是漏洞研究还是攻击利用等方面,都显著提升了性能与效率。

在ExploitBench测试中,GPT-5.6 Sol 的表现与 Mythos Preview 相当,但仅使用了其三分之一的输出tokens。

而在由加州大学伯克利分校研究人员与 OpenAI 及其他前沿实验室合作开发的 ExploitGym 测试中,GPT-5.6 Sol、Terra 和 Luna 模型在推理能力方面都表现出显著的提升。

要知道,两周前发布的Mythos 5和Fable 5横扫各大测评。

仅仅17天后,Sol来了,抢走Mythos 5的王座。

而OpenAI的“太阳”又能称霸多久呢?

焊死安全防线

求生欲拉满

不过,OpenAI似乎怕走Anthropic的老路,OpenAI在介绍网路安全的表述时,言辞谨慎了许多,同时也是OpenAI本次着墨最多的地方。

OpenAI称,根据他们准备框架,GPT-5.6 Sol并未达到网络攻击的临界阈值。

在涉及 Chromium 和 Firefox 的测试中,它发现了一些漏洞和攻击基础代码,但在所测试的条件下,它并未能够自主生成完整的攻击代码。

为了应对 determined 的越狱和套话攻击,OpenAI在模型底层写入了极为强硬的拒绝机制。

不仅如此,系统还配备了实时的网络安全和生物风险分类器,在内容生成的过程中进行毫秒级的过滤。

一旦系统察觉到潜在的高风险,会立即强行暂停生成,并调动后台更大的推理模型对整场对话的上下文进行深度复核,确认违规后直接对用户进行内容拦截。

为了测试这套防线的强度,OpenAI甚至在发布前消耗了超过70万个A100级别的显卡运行小时,利用AI模型自身进行自动化的红队测试,寻找全网可能存在的万能越狱字符。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version