编程模型领域迎来新一轮技术突破——Anthropic推出的Claude Sonnet 4.5模型在多项关键指标上超越前代,成为当前性能最强的编程专用模型。这款新模型不仅在代码生成效率上实现质的飞跃,更在安全性与专业领域应用方面展现出显著优势。
在编程能力验证方面,Claude Sonnet 4.5在SWE-bench测试中取得1.8个百分点的提升,达到行业领先水平。更引人注目的是其持续工作能力——第三方测试显示,该模型可自主完成长达30小时的编程任务,期间生成超过1.1万行代码,成功构建出具备完整功能的类Slack聊天应用。这一表现较前代Opus 4模型的7小时持续工作时长提升超4倍。
计算机系统操作测试(OSWorld)中,新模型以60.2分的成绩刷新纪录,较前代提升近50%。在终端编程(Terminal-Bench)和工具使用(τ2-bench)等专项测试中,同样展现出显著进步。数学能力验证方面,该模型在AIME 2025试题中达到100%准确率(借助Python工具),纯推理模式准确率也高达87%。
专业领域应用成为另一大亮点。在金融、医疗、法律及STEM四大领域,新模型相较前代对基准模型的胜率大幅提升,16K上下文环境下开启深度思考模式时,准确率均突破60%阈值。某金融机构AI负责人评价称,该模型已能提供投资级专业分析,显著提升决策效率。
安全性方面,通过专项训练,模型谄媚、欺骗等不良行为发生率大幅降低。在防御即时注入攻击测试中,新模型展现出更强的鲁棒性,正常请求误拒率从0.15%降至0.02%。GitHub首席产品官Mario Rodriguez特别指出,该模型显著提升了Copilot处理跨代码库复杂任务的能力。
技术生态同步升级,Anthropic发布的Claude Agent SDK将智能体开发框架从专用代码工具扩展为通用开发平台。新框架系统化构建"上下文收集-行动执行-结果验证"开发循环,重点解决长任务内存管理、权限控制系统、多智能体协作三大技术难题。配套推出的Imagine with Claude功能支持实时需求转化,用户输入构思即可自动生成可运行原型。
在商业策略上,新模型延续"提质不提价"原则,输入/输出token价格分别维持3美元和15美元每百万单位。Cognition公司CEO Scott Wu透露,基于该模型开发的Devin工具在规划能力和端到端评估中取得突破性进展。目前开发者已可通过官方渠道体验新模型及开发工具。