滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

性能接近旗舰成本直降，Anthropic中档模型Sonnet 4.6重塑AI应用格局

时间：2026-02-20 16:34:28 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

Anthropic公司近日推出中档AI模型Claude Sonnet 4.6，在保持与前代相同定价策略的同时，实现了性能的显著提升。该模型每百万token输入定价3美元、输出15美元，却能在多项基准测试中比肩甚至超越价格高出五倍的旗舰产品Opus 4.6，引发行业广泛关注。

在真实软件编码能力测试SWE-bench Verified中，Sonnet 4.6以79.6%的得分紧追Opus 4.6的80.8%，同时领先OpenAI的GPT-5.2。在代理式金融分析任务中，该模型以63.3%的准确率超越所有竞争对手，包括Opus 4.6的60.1%和GPT-5.2的59.0%。办公任务评估GDPval-AA Elo评分显示，Sonnet 4.6以1633分超越Opus 4.6的1606分和GPT-5.2的1462分。

尽管在终端编码任务Terminal-Bench 2.0、代理式搜索BrowseComp和新颖问题解决测试ARC-AGI-2等高复杂度领域，Opus 4.6仍保持领先优势，但Sonnet 4.6在计算机使用能力方面展现出突破性进展。OSWorld-Verified基准测试中，该模型得分72.5%，较前代提升11.1个百分点，远超GPT-5.2的38.2%。这种能力使AI能够通过模拟人类操作完成复杂任务，为企业应用开辟了新场景。

保险科技公司Pace的测试显示，Sonnet 4.6在其保险计算机使用基准测试中达到94%的准确率，创下Claude系列模型新高。该模型还具备自我纠正能力，能够分析失败原因并调整策略。在安全防护方面，Sonnet 4.6对提示注入攻击的抵御能力较前代有显著提升，这对需要处理网页交互的企业应用至关重要。

企业用户反馈显示，Sonnet 4.6在保持成本优势的同时，性能表现接近旗舰模型。数据分析平台Hex Technologies已将大部分流量迁移至该模型，其CTO指出，通过自适应思考和高努力模式配置，除最困难的分析任务外，其他工作均达到Opus级别性能。云存储公司Box的测试表明，Sonnet 4.6在真实企业文档处理中的表现较前代提升15个百分点。

该模型配备100万token的超长上下文窗口，可处理完整代码库或法律文件等大型文档。在Vending-Bench Arena企业运营模拟测试中，Sonnet 4.6展现出战略决策能力：前十个模拟月大量投资产能，后期转向盈利能力提升，最终模拟余额达5700美元，较前代提升171%。

业务拓展方面，Anthropic在发布Sonnet 4.6当日宣布与印度IT巨头Infosys达成合作，将Claude模型集成至Topaz AI平台，服务银行、电信和制造业客户。同时，该公司在班加罗尔设立首个印度办事处，目前印度市场占Claude全球使用量的6%，仅次于美国。此举引发资本市场波动，部分软件企业股价出现调整。

为降低开发者使用门槛，Anthropic将免费层级默认升级至Sonnet 4.6，开发者可通过Claude API直接调用该模型。这一策略可能进一步改变AI市场竞争格局，特别是对成本敏感的企业用户产生显著影响。

更多>同类资讯

银行间债市新规落地：免费报价时代终结，做市商或迎新机遇？

07-02

OpenAI推出GeneBench-Pro基准测试：助力AI模型攻克复杂生物数据分析难题

07-02

宁德时代在厦再投百亿，“零碳科技城”建设迈入实质性新阶段

自去年12月签约共建零碳科技城以来，项目推进密集：今年5月，厦门党政主要领导与宁德时代董事长曾毓群会谈推进建设；5月底，全球规模最大的储能检测实证平台在厦启动，总投资约30亿元；6月初，建发股份与宁德时代签…

07-02

博雷顿“算电双驱”战略发布智驾大模型引领矿山智能化协同新变革

业内人士表示，智驾大模型的发布，意味着博雷顿正在推动矿山无人驾驶从规则驱动走向模型驱动，从单车智能走向车队协同，从人工经验走向数据决策，从局部优化走向全局优化。业内人士认为，这场发布会标志着博雷顿正在把多…

07-02

获28亿美元融资，Wayve以“端到端”技术加速自动驾驶商业化布局

07-02

地平线HSD V2.0开启最大规模OTA升级以双引擎驱动端到端智驾新进化

07-02

特斯拉23年：从电动跑车到AI现实，业务版图持续拓展未来可期

07-02

安波福慕尼黑上海电子展发力：发布创新技术，赋能汽车与多元工业新未来

07-02

OpenAI发布GeneBench-Pro基准测试：聚焦AI真实科研场景下的生物学计算能力评估

07-02

古尔曼爆料：苹果2027年春季将推新款iPad Pro，聚焦内部升级或搭载M6或M7芯片

07-02

Figure03机器人入驻宝马美国工厂，执行真实物流工作

07-02

DeepSeek新招DSpark：不拼模型拼速度，推理成本优化新路径来了

07-02

OpenAI发布GeneBench-Pro基准测试：聚焦AI真实科研场景下的生物学计算评估

07-02

2026WAIC“AI创新者思享汇”：从共生到协同，共绘人机关系新蓝图

07-02

孙周兴复旦演讲：探寻AI无法触及之地，不可数字化哥德尔信息成关键

07-02

点击查看更多 +

全站最新

“我又火了”公司诽谤“萝卜快跑”被判侵权，已公开致歉并赔偿损失

FDE人才成“香饽饽”：亚马逊10亿美元布局，行业薪酬水涨船高

7月SUV市场大动作！5款新车定价揭秘，奔驰纯电GLC低价入场搅动风云

石头科技6月30日融资动态：融资净卖出82.43万元融券净卖出1100股

上汽智己LS9 Hyper 7月16日登场，全线控转向+3秒级加速重塑大SUV体验

7月6日上市！福特探险者年度改款，细节升级主打家庭实用风

热门内容

本栏最新

地平线HSD V2.0开启最大规模OTA升级以双引擎驱动端到端智驾新进化

特斯拉23年：从电动跑车到AI现实，业务版图持续拓展未来可期

安波福慕尼黑上海电子展发力：发布创新技术，赋能汽车与多元工业新未来

学而思2026旗舰点映会：AI家教新方案亮相，T6系列学习机引领教育新潮流

邬贺铨：智能体融入工业互联网，发展脉络、机遇挑战与应对全解析

岚图泰山X8纯电版7月交付，配置拉满，30万级SUV市场激战将启

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.