Anthropic公司正式推出其旗舰人工智能模型Claude Opus 4.8版本,在性能提升与功能扩展方面带来多项突破。此次更新延续了4.7版本的核心架构,通过算法优化使模型在专业评测中的综合得分稳步提升,同时保持原有定价体系不变。官方强调,新版本在多学科推理、编程任务和系统操作等关键领域展现出显著进步。
在技术性能层面,Opus 4.8在SWE-Bench Pro编程基准测试中取得69.2%的成绩,较前代提升近5个百分点。Humanity's Last Exam多学科推理测试显示,启用工具辅助时模型得分达57.9%,较4.7版本提高13.1%。在OSWorld系统操作测试中,新版本以83.4%的准确率刷新纪录,知识工作基准GDPval-AA更突破1890分历史高位。值得注意的是,金融分析专项测试Finance Agent v2中,模型取得53.9%的得分,展现出处理复杂经济数据的能力。
针对人工智能常见的"幻觉"问题,研发团队重点优化了模型的诚实性表现。通过改进对齐机制,Opus 4.8在任务执行中主动标注不确定信息的频率提升4倍,试图蒙混过关的概率降至前代的四分之一。在错误行为评估中,该模型与尚未公开的Mythos原型模型表现接近,显著优于前代及同期竞品。官方特别强调,这种设计使模型更倾向于维护用户利益,避免提供未经证实的结论。
伴随模型升级,Claude Code开发平台推出革命性的dynamic workflows功能。这项被开发者称为"数字包工头"的新特性,可将复杂任务自动拆解为数百个并行执行的子任务,每个子任务配备独立验证机制。在Bun语言移植项目中,该功能协调75万个代码单元的转换工作,通过持续构建-测试循环确保移植质量,最终在11天内完成99.8%测试通过率的交付。技术文档显示,系统会主动部署对抗性代理检验结论可靠性,直至输出结果收敛。
用户体验方面,网页版新增Effort控制滑块,允许用户手动调节模型思考强度。该功能取代了原有的自适应思维开关,提供低、中、高三级预设选项,默认设置为高强度模式。API接口同步更新Messages规范,支持在对话过程中动态修改系统指令,实现权限控制、预算调整等高级功能而不中断上下文缓存。
在成本控制领域,新版本推出加速计算模式,以2.5倍运行速度提供服务。定价策略显示,该模式每百万token输入费用降至10美元,输出费用50美元,较前代加速服务成本降低三分之二。常规模式维持每百万输入5美元、输出25美元的价格体系,API模型名称更新为claude-opus-4-8,即日起在全平台开放调用。
技术路线图透露,Anthropic正在研发成本更优的模型变体,同时推进顶级模型Mythos的商业化进程。该原型模型在内部测试中已发现超过一万个软件高危漏洞,目前正进行安全护栏的最后调试。公司承诺将在数周内完成技术验证,向企业客户提供Mythos级别的智能服务。
开发文档显示,dynamic workflows功能以研究预览形式上线,覆盖Claude Code的命令行工具、桌面客户端及VS Code插件,面向Max、Team和企业级用户开放。该功能同步集成至Amazon Bedrock、Vertex AI和Microsoft Foundry等主流云平台,管理员可通过权限设置控制功能启用范围。











