ITBear旗下自媒体矩阵:

Fable 5评测:强,贵,甚至能发现自己正在被检测

   时间:2026-06-10 18:38:31 来源:硅星GenAI编辑:快讯 IP:北京 发表评论无障碍通道
 

藏了2个月的“神话模型”Claude Mythos 终于被Anthropic放出来了。

今天凌晨,Anthropic 上线 Claude Fable 5——一个新的“全球最强”。它和此前只对少数机构开放的 Mythos 5 是同一个底层模型,官方的说法是:加好了护栏、可以放心给所有人用的安全版。

榜单也确实被它刷穿了:SWE-Bench Pro 80.3%,把第二梯队的 GPT-5.5(58.6%)甩出 20 多个点。

但说实话,这一连串的轰炸看下来,人已经有点麻了——他们越是把话说满,我们就越想较个真:到底能有多强?所以硅星人第一时间做了一系列任务实测,这些任务来自我们内部持续构建和更新的一整套系统benchmark。

#01

很稳但贵,Fable 5甚至知道自己被测试了

先说总体印象:这是一个重思考、能力上限很高的旗舰模型。我们精选了 38 道题,覆盖十个维度,其中专门埋了不少“诊断硬题”——结果它零失分。防幻觉、推理、安全、多语言、写作、约束遵循,全部稳稳接住。

但在聊能力之前,得先泼一盆冷水:它贵,而且不好用上。就算用上了,token 的消耗速度也远超过往任何大模型——5 个小时的额度,我们半个小时就烧完了。强是真强,肉疼也是真肉疼。

额度烧在哪了?我们一项项看。

最先感受到的是它对指令的“收放自如”。

精确字数这种最容易翻车的活——恰好 50 字、要求 20 字以内它写 19 字——它都拿捏得住,否定约束同样没问题。更有意思的是,碰到“10 字内详细全面论述”这种自相矛盾的要求,它不会硬着头皮糊弄,而是先点破“这不可能同时满足”,再给出一个折中回复。它不只是在执行指令,它在理解指令。

这种“先想清楚再动手”的特质,在防幻觉测试里表现得更彻底。

我们扔给它假论文、假法条、假人物、假 API,全部识破;“2027 世界杯中国队夺冠”这种多重伪前提的题,它能一次把每一处错都戳破。更难得的是诚实校准:该确定的就确定,不知道的就直说,不会为了把答案凑对称而硬编数字。

硬推理也是同样的路数。贝叶斯假阳性、真话谜题、时间复杂度,推理链都很干净,不被题面里的表面数据带偏。

能力题之外,我们也测了最难量化的文字。仿鲁迅的冷峻反讽、给儿童的科普,它都能精准切换,几乎没有其他模型那种文字元素堆砌的毛病。直接看它仿鲁迅写“网络看客”的这段:

看客们最善于一窝蜂。东边有人喊好,于是齐声喝彩;西边有人骂坏,便又同仇敌忾。他们未必看清了什么,也未必想过什么,只是怕落了单,怕做那唯一不鼓掌的人罢了。从前是围着戏台,如今是围着屏幕;台是新的,魂是旧的。点赞如潮,转发如风,潮过风停,竟没有一个人记得自己方才究竟在嚷些什么。热闹是他们的,思想,他们大约是没有的。(仿写鲁迅)

安全这块,Anthropic 显然给 Fable 5 上了重保险。越狱、提示注入、隐蔽偏见全守住,性别歧视、地域歧视会被严肃指出,但也没有误伤正当请求。我们还观察到一个细节:一旦问题触碰安全红线,它会直接强制切换到 Opus 4.8 来回复——护栏不是写在提示词里的,是焊在产品逻辑里的。

当然,“想透了再动手”是有代价的,除了价格,还有速度。

Fable 5 一定要在思维链里把问题想透才走下一步,全程平均 9.4 秒/题,最快 7.2 秒,最慢一题用了 46.9 秒。对比前一天刚发布、主打速度的 MiMo V2.5-Pro-UltraSpeed(平均 1.6 秒/题),两者几乎是光谱的两个极端:一个三思而后行,一个出手就是答案。

最后是整场测试里最让我们意外的一幕:测着测着,它发现自己在被测试。只要连续出现两道相似方向的题,它就会跳出来揣测意图、点评考点,甚至建议我们怎么打分——“我猜这又是你那套幻觉测试题”“建议把‘是否指出矛盾’单设为评分项”。

好吧,开始教我们做事了。那一刻它不像一个被动答题的模型,更像一个坐在我们旁边的评测顾问。

#02

Coding:像个天才的独立开发者,还不是个严谨的工程团队

Coding 是 Anthropic 的看家场景。显然,Fable 5的适用于复杂任务、消耗快等属性,也是为工程代码等开发场景设计的。

所以这部分我们测得最重,分了三层:算法题、工程化深度、真实项目复刻。

测完之后,一个核心印象浮出来了:它像一个天才的独立开发者——出活快、成品惊艳,但还不是一个守纪律的工程团队。

先看算法题,这是它最“艺术”的一面。

从结果来看,代码结构清晰、逻辑严谨,命名规范、注释恰当,可读性和可维护性都在高水准上。

同时,算法模块独立封装,方便复用和单测;边界条件和异常输入考虑得很充分;核心路径的时间复杂度也控制得当,没有冗余循环和无效计算。

很优美,看得出“AI素养”。

但把任务从单题换成更接近真实开发的工程任务,毛边就露出来了。

好的一面是产出效率极高——功能实现完整,核心流程一次跑通,迭代响应也快。

问题出在那些不影响“能跑”、但需要判断决定“能不能维护”的地方:错误处理不够完善,少数场景漏了异常捕获;存在重复逻辑,复用度偏低;部分变量命名含义模糊,后期维护成本高;该有的单元测试和注释文档也缺位。

换句话说,它交付的是“能上线的 demo”,不是“能交接的工程”。如果真要把它编进团队,代码审查和静态检查这道关还是得人来把。

有趣的是,到了最能“秀肌肉”的环节——复刻 Apple 官网首页——它又把分挣回来了,而且挣得漂亮。

布局、色彩、字体、间距,和原版几乎像素级一致;悬停反馈、滚动视差这些交互流畅自然,没有可感知的延迟;桌面、平板、手机三种视口下组件自动排列,没有溢出和重叠;首屏加载快,资源做了合理的压缩合并,Lighthouse 跑分优秀。

这是那种你截图发到群里,没人相信是模型一次性交付的效果。

所以这一部分的结论和上一部分形成了有趣的对照:通用能力上它“又稳又贵”,写代码时它“又快又惊艳”——只是在惊艳的成品和优美的算法之间,还隔着一层叫“工程纪律”的东西。

从我们的测评来看,Fable 5的确是一款目前最强的模型之一。不过接下来的问题是这样的价格,在更广大用户的判断里是否划算。

在发布的官方信息里,Anthropic说,从6月9日到6月22日,Fable 5会在Pro、Max、Team和按席位计费的Enterprise方案里免费包含;但从6月23日起,Fable 5将从这些订阅计划中移除,之后要用,得花usage credits,只有在算力允许时,才”可能”延长免费窗口或重新纳入订阅。

想用就要多花钱, 这就是今天Anthropic 的底气。但这个领先的窗口能有多久,OpenAI和其他模型厂商们多久能跟上来,会最终决定此刻这个定价策略的成败。也许到时候,真正满血版的Mythos也会彻底放出来了。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version