滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

Fable 5评测：强，贵，甚至能发现自己正在被检测

时间：2026-06-10 18:38:31 来源：硅星GenAI编辑：快讯 IP：北京 发表评论无障碍通道

藏了2个月的“神话模型”Claude Mythos 终于被Anthropic放出来了。

今天凌晨，Anthropic 上线 Claude Fable 5——一个新的“全球最强”。它和此前只对少数机构开放的 Mythos 5 是同一个底层模型，官方的说法是：加好了护栏、可以放心给所有人用的安全版。

榜单也确实被它刷穿了：SWE-Bench Pro 80.3%，把第二梯队的 GPT-5.5（58.6%）甩出 20 多个点。

但说实话，这一连串的轰炸看下来，人已经有点麻了——他们越是把话说满，我们就越想较个真：到底能有多强？所以硅星人第一时间做了一系列任务实测，这些任务来自我们内部持续构建和更新的一整套系统benchmark。

#01

很稳但贵，Fable 5甚至知道自己被测试了

先说总体印象：这是一个重思考、能力上限很高的旗舰模型。我们精选了 38 道题，覆盖十个维度，其中专门埋了不少“诊断硬题”——结果它零失分。防幻觉、推理、安全、多语言、写作、约束遵循，全部稳稳接住。

但在聊能力之前，得先泼一盆冷水：它贵，而且不好用上。就算用上了，token 的消耗速度也远超过往任何大模型——5 个小时的额度，我们半个小时就烧完了。强是真强，肉疼也是真肉疼。

额度烧在哪了？我们一项项看。

最先感受到的是它对指令的“收放自如”。

精确字数这种最容易翻车的活——恰好 50 字、要求 20 字以内它写 19 字——它都拿捏得住，否定约束同样没问题。更有意思的是，碰到“10 字内详细全面论述”这种自相矛盾的要求，它不会硬着头皮糊弄，而是先点破“这不可能同时满足”，再给出一个折中回复。它不只是在执行指令，它在理解指令。

这种“先想清楚再动手”的特质，在防幻觉测试里表现得更彻底。

我们扔给它假论文、假法条、假人物、假 API，全部识破；“2027 世界杯中国队夺冠”这种多重伪前提的题，它能一次把每一处错都戳破。更难得的是诚实校准：该确定的就确定，不知道的就直说，不会为了把答案凑对称而硬编数字。

硬推理也是同样的路数。贝叶斯假阳性、真话谜题、时间复杂度，推理链都很干净，不被题面里的表面数据带偏。

能力题之外，我们也测了最难量化的文字。仿鲁迅的冷峻反讽、给儿童的科普，它都能精准切换，几乎没有其他模型那种文字元素堆砌的毛病。直接看它仿鲁迅写“网络看客”的这段：

看客们最善于一窝蜂。东边有人喊好，于是齐声喝彩；西边有人骂坏，便又同仇敌忾。他们未必看清了什么，也未必想过什么，只是怕落了单，怕做那唯一不鼓掌的人罢了。从前是围着戏台，如今是围着屏幕;台是新的，魂是旧的。点赞如潮，转发如风，潮过风停，竟没有一个人记得自己方才究竟在嚷些什么。热闹是他们的，思想，他们大约是没有的。（仿写鲁迅）

安全这块，Anthropic 显然给 Fable 5 上了重保险。越狱、提示注入、隐蔽偏见全守住，性别歧视、地域歧视会被严肃指出，但也没有误伤正当请求。我们还观察到一个细节：一旦问题触碰安全红线，它会直接强制切换到 Opus 4.8 来回复——护栏不是写在提示词里的，是焊在产品逻辑里的。

当然，“想透了再动手”是有代价的，除了价格，还有速度。

Fable 5 一定要在思维链里把问题想透才走下一步，全程平均 9.4 秒/题，最快 7.2 秒，最慢一题用了 46.9 秒。对比前一天刚发布、主打速度的 MiMo V2.5-Pro-UltraSpeed（平均 1.6 秒/题），两者几乎是光谱的两个极端：一个三思而后行，一个出手就是答案。

最后是整场测试里最让我们意外的一幕：测着测着，它发现自己在被测试。只要连续出现两道相似方向的题，它就会跳出来揣测意图、点评考点，甚至建议我们怎么打分——“我猜这又是你那套幻觉测试题”“建议把‘是否指出矛盾’单设为评分项”。

好吧，开始教我们做事了。那一刻它不像一个被动答题的模型，更像一个坐在我们旁边的评测顾问。

#02

Coding：像个天才的独立开发者，还不是个严谨的工程团队

Coding 是 Anthropic 的看家场景。显然，Fable 5的适用于复杂任务、消耗快等属性，也是为工程代码等开发场景设计的。

所以这部分我们测得最重，分了三层：算法题、工程化深度、真实项目复刻。

测完之后，一个核心印象浮出来了：它像一个天才的独立开发者——出活快、成品惊艳，但还不是一个守纪律的工程团队。

先看算法题，这是它最“艺术”的一面。

从结果来看，代码结构清晰、逻辑严谨，命名规范、注释恰当，可读性和可维护性都在高水准上。

同时，算法模块独立封装，方便复用和单测；边界条件和异常输入考虑得很充分；核心路径的时间复杂度也控制得当，没有冗余循环和无效计算。

很优美，看得出“AI素养”。

但把任务从单题换成更接近真实开发的工程任务，毛边就露出来了。

好的一面是产出效率极高——功能实现完整，核心流程一次跑通，迭代响应也快。

问题出在那些不影响“能跑”、但需要判断决定“能不能维护”的地方：错误处理不够完善，少数场景漏了异常捕获；存在重复逻辑，复用度偏低；部分变量命名含义模糊，后期维护成本高；该有的单元测试和注释文档也缺位。

换句话说，它交付的是“能上线的 demo”，不是“能交接的工程”。如果真要把它编进团队，代码审查和静态检查这道关还是得人来把。

有趣的是，到了最能“秀肌肉”的环节——复刻 Apple 官网首页——它又把分挣回来了，而且挣得漂亮。

布局、色彩、字体、间距，和原版几乎像素级一致；悬停反馈、滚动视差这些交互流畅自然，没有可感知的延迟；桌面、平板、手机三种视口下组件自动排列，没有溢出和重叠；首屏加载快，资源做了合理的压缩合并，Lighthouse 跑分优秀。

这是那种你截图发到群里，没人相信是模型一次性交付的效果。

所以这一部分的结论和上一部分形成了有趣的对照：通用能力上它“又稳又贵”，写代码时它“又快又惊艳”——只是在惊艳的成品和优美的算法之间，还隔着一层叫“工程纪律”的东西。

从我们的测评来看，Fable 5的确是一款目前最强的模型之一。不过接下来的问题是这样的价格，在更广大用户的判断里是否划算。

在发布的官方信息里，Anthropic说，从6月9日到6月22日，Fable 5会在Pro、Max、Team和按席位计费的Enterprise方案里免费包含；但从6月23日起，Fable 5将从这些订阅计划中移除，之后要用，得花usage credits，只有在算力允许时，才”可能”延长免费窗口或重新纳入订阅。

想用就要多花钱，这就是今天Anthropic 的底气。但这个领先的窗口能有多久，OpenAI和其他模型厂商们多久能跟上来，会最终决定此刻这个定价策略的成败。也许到时候，真正满血版的Mythos也会彻底放出来了。

更多>同类资讯

启元T1全球首秀：可变形设计解锁多元场景，开启个人机器人新篇章

07-16

孙正义力挺AI发展：拥抱变革，2040年AI或占全球经济两成

07-16

具身智能邂逅餐饮业：千味央厨携手灵心巧手，解锁后厨新“智”变

07-16

GPT-5.6助力Codex用户飙升，OpenAI与Anthropic商战正酣

07-16

A股新阶段：科技与价值轮动，把握风险收益比是关键

07-16

中国火箭回收不走寻常路：技术封锁下创新突围，开放合作共赴星辰

于是我们成了全球首个掌握运载火箭网系回收技术的国家，把一条创新的路走通了。但我觉得，这里最值得聊的不是"我们赢了"。现在一些国家搞极限施压，技术封锁、小院高墙，确实是约束、是限制，但对于中国的创新团队，往…

07-16

AI浪潮下：我们是否在“豢养”中走向心智的“未成熟化”？

07-16

GPT-5.6智商突破130天才线离线测试显实力智能应用潜力大

07-16

努比亚NaviX Ultra全球首秀，AI智能体手机新纪元开启并获大奖

07-16

荣耀Robot Phone全球首秀：双色设计吸睛预约将启具身交互新时代来临

荣耀CEO李健近日通过社交平台宣布，全球首款机器人形态手机荣耀Robot Phone已完成量产准备，同步公开的海报显示该机型将推出两款全新配色方案。这一消息标志着继MWC2026全球首秀后，这款融合具身智能技术的终端设备即将进入市场销售阶段。据产业链人士透露，产品预约通

07-16

现代汽车集团收购波士顿动力近10%股份加速先进机器人技术业务布局

07-16

上海AI超级科研工厂实现全流程无人干预 5天自主完成135项科研任务

07-16

诺基亚携手英伟达：全球首个商用AI-RAN平台问世，引领移动网络新变革

据报道，7月15日，诺基亚与英伟达联合宣布，已成功开发出全球首个商用的人工智能驱动无线接入网络（AI-RAN）平台。通过AI驱动的无线电创新，平台能在不增加现有基础设施和频谱资源的情况下大幅提升数据传输能力，…

07-16

网传百度为苹果Apple智能提供AI搜索功能

近日，据知情人士向《科创板日报》透露，苹果公司正与百度展开合作，为中国地区的iPhone用户开发专属人工智能功能。此次合作的核心是百度将重点打造一款基于人工智能的搜索功能，该功能将被纳入“苹果智能”(Apple Intelligence)功能套件，不仅能处理图像和文本信息，还

07-16

苏州高新区科创潮涌：硬核技术破局，引领产业新跨越

07-16

点击查看更多 +

全站最新

美容院经营难题如何破？从拓客到裂变，打造闭环系统提升客户终身价值

产业互联网浪潮下，专业IT外包如何为企业筑牢数字生态根基？

极氪9X五座版7月28日直接大定跳过发布会自信登场实力如何？

特斯拉电池大揭秘：磷酸铁锂VS三元锂，谁才是家用耐造“王者”？

长春汽博会“智”潮涌动：电池革新、智驾升级、车路云共绘未来出行画卷

长安汽车高管预判：纯电与油电混动或成主流税收调整或致使用成本趋同

热门内容

本栏最新

英伟达携手丰田深化合作，共拓AI应用版图，赋能智慧出行新未来

猿辅导马旻2026互联网大会发声：AI大阅读破局教育“不可能三角”

长安启源Q06上海首秀扶光美学+800V平台 9月上市剑指中高端市场

OPPO AndesGPT大模型完成端侧AI备案，将推进大模型与终端融合实现个性化智能体验

AI赋能教育新征程：分之道峰会发布高中督学新品，共绘在线督学蓝图

捷达M6纯电轿车申报完成基于大众CMP平台智能化升级引领电动新潮流

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.