在人工智能应用蓬勃发展的当下,亚马逊云科技推出了一系列创新的可观测性解决方案,旨在为企业打造更加高效、可靠的AI应用落地路径。这些方案聚焦于AI应用开发过程中的三大核心环节:指标收集、追踪以及日志记录,从而全面提升了应用的可观测性。
AI应用的开发面临着多重挑战。其中,随机性问题尤为突出,即便基础模型不断迭代,AI应用的输出结果仍难以完全预测。例如,对于同一问题,AI可能会给出迥异的答案,这无疑增加了可追踪性的难度。开发者需要深入追踪每个答案的生成过程,以确定答案的质量。AI应用的效果评估也颇具主观性,难以简单判定对错,需要更为科学合理的统计测量方式。而随着业务规模的扩大,如何控制AI应用的平均成本,也成为了企业面临的一大难题。
为了应对这些挑战,亚马逊云科技将AI应用开发过程细分为技术验证、实施扩展以及生产优化三个阶段。在技术验证阶段,开发者可以密切关注模型性能指标,如准确性、速度和稳定性等,从而选择最佳模型。同时,通过追踪整个应用的响应时间和处理逻辑,开发者可以进一步优化开发流程。在实施扩展阶段,当业务逐步铺开,开发者需要确保从内测到全面推广的顺利进行,并借助可观测性解决方案快速分析和定位可能出现的问题。而在生产优化阶段,开发者则可以利用可观测性数据对成本和用户行为进行深入分析,以留住客户,并通过A/B测试等方式,决定是否引入新的模型或流程。
亚马逊云科技的可观测性解决方案涵盖了多个层面。首先,通过与大模型提供商如OpenAI、Anthropic等的API集成,亚马逊云科技提供了便捷的SDK,用于收集每次调用的输入输出token数、延迟等关键指标。其次,在框架层面,亚马逊云科技同样提供了相应的SDK,以追踪整个工作流程,包括不同模型和模块之间的调用关系。亚马逊云科技还能够监控GPU的资源使用情况,以提高成本效益。
这些SDK严格遵循OpenTelemetry社区定义的规范,能够与亚马逊云科技的服务如CloudWatch、X-Ray等实现无缝集成,提供直观的可视化展示和分析功能。开发者可以在CloudWatch中清晰地看到组件之间的关系图,并通过点击具体组件,深入了解其作为工作流的每个步骤,包括调用的模型、次数、耗时等,从而快速定位瓶颈并优化延迟。
除了集成现有的开源框架外,亚马逊云科技还推出了自有的多Agent框架——Bedrock Agent和Sagemaker Strands Agent。Bedrock Agent能够在控制台直观展示每个Agent的交互过程,包括输入输出、耗时等关键信息,有助于开发者更好地理解和优化流程。而Sagemaker Strands Agent则通过SDK自动收集追踪和指标数据,开发者只需将数据导出到CloudWatch、X-Ray等服务进行可视化和分析。这两种框架优势互补,能够满足不同场景下的需求。
在亚马逊云科技的一次演示中,通过基于Sagemaker Strands Agent的亚马逊云科技小助手Demo,现场展示了如何利用可观测性解决方案追踪多Agent交互、调用大模型等过程,并分析指标数据。该Demo采用了多Agent框架,包括一个主助手Agent和三个小Agent,分别负责亚马逊云科技文档搜索、成本分析和架构图设计。其中两个Agent运用了先进的MCP技术,充分展示了可观测性在新兴AI技术中的应用潜力。
亚马逊云科技的可观测性解决方案为AI应用开发提供了全方位的支持,不仅提高了开发效率、优化了性能和控制了成本,还加速了AI应用的落地进程。通过深入收集和分析AI应用的指标、追踪和日志数据,可观测性工具帮助开发者全面了解了模型选择、流程优化、成本分析等各个环节,从而实现了更好的客户体验,并为企业带来了可观的收益。亚马逊云科技与开源社区的紧密合作,以及多种可观测性框架的集成,为开发者提供了灵活多样的选择。而与亚马逊云科技服务的无缝集成,则使得AI应用的开发、部署和优化变得更加高效和可控。