亚马逊云科技近期宣布了一项重大更新,在其Amazon Bedrock平台上引入了Anthropic公司最新研发的Claude Opus 4和Claude Sonnet 4两款混合推理模型。这一创新举措标志着AI技术在编程、复杂推理任务以及多步骤工作流程方面的又一里程碑。
据悉,Claude Opus 4和Claude Sonnet 4这两款模型均具备在快速响应与深度思考模式间灵活切换的能力。它们特别擅长处理编程任务、长时间推理任务以及复杂的工作流,能够显著缩短AI代理完成耗时任务的时间,同时保持卓越的性能表现。例如,这些模型能够在几分钟内完成通常需要数小时的任务。
两款模型均支持高达200K tokens的上下文窗口,使得它们能够高质量地处理或生成长篇内容。它们还具备“扩展思考”功能,允许Claude在深度推理与行动执行模式之间自由切换。这种灵活性使得Claude能够根据需要运行数据分析,并在工作过程中不断优化准确性,从而更好地预测和执行后续步骤。
Anthropic公司透露,Claude Opus 4在解决复杂软件工程问题的能力上超越了前代AI模型。它能够在辅助Agentic任务时提供更准确的响应,同时显著提升指令遵循与信息可靠性。这些模型能够在快速直接回答与分步思考之间灵活切换,从而在关键行业基准测试中大幅提升多步骤工作流程的表现。
亚马逊云科技一直以来都致力于提供全面多样的前沿模型,这也是其与其他云服务巨头相区别的一大特色。除了自研大模型外,亚马逊云科技还积极在其大模型货架上提供来自不同企业、具备不同功能的领先大模型,以满足客户的多样化需求。此次Claude 4模型的推出,再次展现了亚马逊云科技在模型上架速度上的优势。
Claude系列模型在亚马逊云科技客户中一直备受欢迎。例如,上一代模型Claude Sonnet 3.7在发布后的五周内,Amazon Bedrock客户使用率比同期的上一代Claude模型高出300%。此次Claude 4的问世,预计将在编程基准测试中脱颖而出,再次掀起一波换新潮。
Anthropic增长与营收负责人Kate Jensen表示,Claude Opus 4和Claude Sonnet 4将AI从工具转变为真正的协作伙伴,能够大幅缩短项目周期,将原本需要数周完成的项目压缩至数小时内完成。这两款全新Claude 4模型在企业中可以承担更专业的角色,如处理常规分析、跨部门协调,甚至在极少监督的情况下管理完整的工作流程。
其中,Claude Opus 4被誉为全球最强的AI编程模型之一,它擅长以极高准确率处理复杂多步骤任务,能够胜任编程、研究、内容创作等长期任务。该模型适用于协调跨职能工作流或跨多个数据源进行深度研究,以及独立完成从规划到执行的复杂编码项目和Agent工作流。例如,金融行业客户可以利用Claude Opus 4进行Agent搜索与研究,连接海量市场报告以获取行业洞察;而营销类客户则可以利用该模型自主管理多渠道的营销活动。
Claude Opus 4的内存能力也远超以往的模型。当开发人员构建提供Claude本地文件访问的应用程序时,Opus 4能够熟练地创建和维护“内存文件”来存储关键信息。这有助于提升长期任务的意识、连贯性以及Agent任务的性能,如在玩Pokémon时创建“导航指南”。
另一方面,Claude Sonnet 4同样展现出了卓越的编程和推理能力,超越了前代Claude Sonnet 3.7。它兼顾高性能、出色的速度和较低的成本,尤其适合高吞吐量的业务场景。该模型可以应用于代码审查、漏洞修复等日常开发工作,也可以作为任务专用的子Agents同时处理搜索、数据分析或内容合成等多类任务,并能在多个任务间自如切换。例如,旅游与酒店行业客户可以使用Claude Sonnet 4近乎实时地处理客户请求,并提供个性化响应。
Snorkel AI联合创始人Henry Ehrenberg对Claude Opus 4给予了高度评价,认为该模型在Agentic系统与企业数据集的准确性上正推动技术前沿。其研究团队使用Snorkel的精细化评估平台对Claude Opus 4进行了基准测试,结果显示,在特定业务线等关键数据子集的处理上,Claude Opus 4的表现显著优于其他推理模型。Block首席数据和机器学习工程师Bradley Axen也强调,Claude Opus 4是首个能在其代号为’goose’的Agent中提升代码编辑和调试质量的模型,同时保持了出色的性能和可靠性。