ITBear旗下自媒体矩阵:

焱融科技张文涛:大模型时代,高性能全闪存储如何破解AI训练难题?

   时间:2025-10-03 14:39:56 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

在QCon全球软件开发大会(北京站)上,焱融科技CTO张文涛分享了高性能全闪并行文件系统YRCloudFile的设计与实践,深入探讨了AI训练场景中的存储挑战与解决方案。张文涛指出,深度学习领域中,数据与算力是模型训练的核心要素,但数据规模和模型复杂度的快速增长导致存储性能成为制约训练效率的关键瓶颈。

张文涛通过meta的存储增长数据和某大客户的实际案例,揭示了AI时代存储需求的爆发式增长。他提到,2022年ChatGPT发布后,国内大模型厂商的数据量年均增速从20T跃升至60T,存储容量与性能需求同步激增。AI全流程中,数据采集、处理、训练、推理和归档各环节均面临不同挑战,其中训练环节对存储性能的要求最为严苛。

针对AI训练场景,YRCloudFile通过多项技术创新解决了高并发、海量小文件、带宽峰值等核心问题。系统采用静态数据路由算法,在文件创建时即确定存储位置,避免访问时的元数据查询开销,同时利用多磁盘并行提升带宽利用率。Multi-Channel技术通过网卡聚合突破单网卡带宽限制,NUMA亲和性优化避免跨节点内存访问,RDMA单边编程模式减少内存拷贝,共同将单节点吞吐量提升至480GB/s。

在海量小文件处理方面,YRCloudFile采用基于Dentry Hash的元数据分布策略,通过根目录固定、子目录哈希选择和本地性优化,确保元数据操作均匀分布且具备高效预取能力。测试数据显示,YRCloudFile在1亿至100亿文件规模下,元数据OPS性能稳定,远超开源CephFS的衰减表现。同时,系统通过弱化POSIX语义、异步close操作等技术,将小文件访问性能提升10倍以上。

为满足大规模集群需求,YRCloudFile设计了汇聚式心跳上报机制和UDP推拉结合的事件同步方案,支持200余个全闪节点和10万个客户端的扩展能力。智能数据分层功能通过时间和大小策略,自动将冷数据下沉至对象存储,同时保持业务透明无感。在AI训练中,数据预热功能确保GPU快速访问热点数据,避免冷启动延迟。

在运维层面,YRCloudFile提供多租户管理、访问权限控制、日志审计和回收站等安全特性,支持弹性数据网络打通多网络平面。针对单流业务,系统通过缓存预取优化性能;针对小模型训练,设置Cache HardLimit避免延迟抖动;针对IB网络拥塞,实施客户端限速保障整体吞吐量。

张文涛还介绍了YRCloudFile在推理场景的优化方案。系统为KVCache提供PB级缓存空间,单个节点支持40GBps带宽和低延迟访问,使长上下文场景的TTFT延迟降低13倍,高并发场景性能显著提升。DataInsight解决方案支持百亿级数据秒级检索,通过多维度组合查询和增量数据感知,帮助企业快速构建知识库平台。

张文涛毕业于华中科技大学计算机专业硕士,拥有15年分布式存储领域经验,主导了YRCloudFile从研发到落地的全过程。该系统已广泛应用于AI及高算力场景,具备丰富的架构设计和性能优化经验。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version