ITBear旗下自媒体矩阵:

小红书揭秘:FinOps实践下的云成本优化与资源效率提升策略

   时间:2025-08-29 21:56:11 来源:InfoQ编辑:快讯团队 IP:北京 发表评论无障碍通道
 

在云计算日益成为互联网企业业务运行重要支柱的当下,如何高效管理和优化云资源成本,成为了行业内普遍面临的挑战。近日,在QCon全球软件开发大会(北京站)上,小红书混合云资源管理负责人梁啟成,分享了小红书在云成本优化领域的实践经验,详细阐述了他们如何通过技术创新,实现资源使用效率的大幅提升,进而节省数亿成本。

小红书自2013年成立以来,便与云计算结下了不解之缘,从最初的站点部署,到后来大规模使用EMR产品,再到跨云环境下的异地多活容灾建设,小红书的云计算之旅可谓丰富多彩。目前,小红书在公有云上的资源规模已达到千万核CPU和万张GPU卡的级别,每天处理的云产品账单金额巨大。

面对如此庞大的云资源体量,小红书在成本优化方面遇到了诸多难题,如成本增速过快、成本归属不清晰、缺乏有效的成本控制手段等。为了破解这些难题,小红书借鉴了FinOps框架的解题思路,从成本洞察、成本优化和成本运营三个方面入手,进行了一系列探索和实践。

在成本洞察方面,小红书遇到了资源使用现状不清、成本构成不明等问题。为了解决这些问题,小红书启动了技术商品化项目,通过对自研中台产品进行产商品上架管理,实现了内外账的分离。这一举措不仅让公司能够看清成本并实现精细化运营,还明确了采购、中台技术和业务技术各方的权责,提高了协作效率。

在成本优化方面,小红书针对CPU和GPU两类算力资源进行了重点优化。对于CPU资源,小红书通过在线业务混部、大VM小Pod策略等方式,提升了资源使用效率。他们发现,内存访问延迟的差异是导致CPU利用率分层的关键因素,因此通过优化虚拟机资源分配、避免跨NUMA节点和跨Socket分配等方式,解决了CPU利用率分层和抖动问题。同时,通过混部策略,让VM上运行的业务更加丰富多样,多业务混跑,减少了资源共振导致的抖动。

对于GPU资源,小红书则在内容大模型方向进行了降本增效实践。他们通过替换数据存储格式、增加数据加速层、自动调参、模型量化和知识蒸馏等方式,降低了GPU资源的使用成本。例如,在模型量化方面,他们利用FP8低精度格式进行后训练加速,实现了训练效率的大幅提升。在知识蒸馏方面,他们通过将大模型的知识传授给小模型,降低了模型的复杂性和计算资源需求。

梁啟成表示,小红书在云成本优化方面的实践探索取得了显著成效。通过多部门协同践行FinOps理念,从成本洞察、成本优化和成本运营三个方面入手,小红书实现了资源使用效率的大幅提升和成本的有效控制。未来,小红书将继续深化AI for FinOps的实践探索,利用AI技术更好地进行成本优化和成本洞察。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version