ITBear旗下自媒体矩阵:

XSKY星辰天合:以智能分层存储,赋能AI大模型高效训练与落地

   时间:2025-12-11 10:19:30 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

随着大语言模型(LLM)和多模态模型参数量与训练数据量呈指数级攀升,AI技术对数据存储的“性能-成本-效率”提出了前所未有的严苛要求。在AI全工作流中,从数据采集、清洗预处理、GPU高并发训练到模型推理,每个环节均需TB/s级带宽与低延迟I/O支持。以大规模图像识别项目为例,每日需采集数百万张图片,数据量可达数百GB甚至数TB,若存储系统写入带宽不足,将直接拖慢采集进度;在自然语言处理项目中,分词、词性标注等预处理需频繁读取数据,若读取带宽不足,处理效率将大打折扣;深度学习项目中,数千个GPU并行训练时,若存储系统I/O延迟过高,GPU将因等待数据而闲置,造成资源浪费。同时,海量原始数据、中间数据和归档数据需长期保存,单一存储介质难以平衡高性能需求与成本控制,“全闪存+混闪”分层存储已成为行业共识。

然而,传统分层方案存在三大核心痛点,严重制约AI效率。其一,盲目流动问题突出。传统方案基于数据创建时间(mtime)分层,导致高频访问的训练集可能因“到期”被降级至慢速混闪池,训练性能骤降。其二,割裂命名空间增加操作风险。数据在不同存储层间流动需手动切换路径或挂载点,易因操作失误导致训练失败。其三,高昂隐性成本推高总拥有成本(TCO)。企业为避免性能问题,被迫将更多数据保留在全闪存层,或反复“搬运”降级数据回热层,导致存储采购成本和人力成本大幅增加。

某大型智算中心曾因开源方案缺乏智能分层能力,数据预处理效率低下,GPU等待时间过长,无法实现“热数据高性能训练、冷数据自动归档”的顺畅流转。为破解这一困境,北京星辰天合科技股份有限公司基于XEOS对象存储,推出“XEOS AI数据湖方案”,通过智能数据流动机制重塑AI分层存储逻辑,为头部AGI厂商、国家级AI实验室和大型智算中心提供高效数据底座。

该方案在技术创新层面重构了AI数据分层逻辑。传统方案按创建时间分层,无法精准适配数据实际访问模式,而本方案引入基于访问时间(atime)的智能生命周期管理机制。系统实时感知数据访问行为,精准捕获GetObject/HeadObject等操作,每次访问自动刷新atime,动态调整分层计划。高频训练数据集因频繁访问可长期驻留全闪热层,保障训练性能稳定;长期无访问的冷数据则自动流向低成本混闪池,降低存储成本。同时,方案通过透明化和自动缓存机制实现分层数据访问增强。统一命名空间下,上层应用无需关心数据存储位置,避免手动切换失误;首次访问冷层数据时,系统异步缓存至热层,后续访问直接从热层读取,实现“一次慢、次次快”;每次缓存数据访问刷新过期时间,确保热点数据长期驻留高速层;系统还支持批量HeadObject操作提前预热数据集,首次访问即达极致性能。

在架构创新方面,方案在统一命名空间内整合“高性能全闪热层”与“大容量混闪温冷层”。热层采用全闪存介质,针对模型训练、推理等高频场景优化,提供毫秒级时延和TB/s级带宽,满足GPU集群高并发数据加载需求;温冷层采用“SSD+HDD”混闪架构,以低成本承载原始数据、中间结果和训练日志等低频数据,支持自动归档与生命周期清理功能。数据在层间流动时,访问路径和权限控制保持一致,消除“数据搬运”操作成本与性能损耗。

性能创新层面,方案基于分布式架构设计,单集群可承载EB级容量,支持线性扩展,轻松应对AI数据“爆发式增长”。通过优化I/O调度算法,在极限压力下仍能保持低时延:头部AGI厂商场景中,峰值读取带宽达5Tbps,读取时延≤8ms;智算中心场景中,读取峰值达149.34GB/s,满足大模型“高并发、高带宽”训练需求。系统继承星辰天合企业级存储的金融级可靠性,数据可用性达99.9999%,减少数据丢失风险。

该方案实施分为两个阶段:2024年10月至12月,首批交付4个集群,覆盖不同地域机房,总容量约9PB;2025年2月至6月,第二批交付2个地域机房的2个集群,并扩容原有3个集群,总容量约46PB。项目通过智能分层与混闪架构,帮助客户降低存储TCO 30%-60%。某智算中心避免全闪存过度配置,年节省存储采购成本超千万元;头部AGI厂商通过冷数据自动归档,减少30%全闪容量占用。同时,方案消除数据流动人工干预与性能损耗,数据预处理效率提升300%,GPU利用率提升25%-75%。某智算中心GPU等待时间从日均4小时缩短至1小时,年增加模型训练迭代次数超50次。方案支持在线扩容,无需停机,某客户4个月内完成20PB数据扩容,未影响训练任务,避免日均超百万元的研发延误损失。

在社会效益方面,方案通过高效数据底座释放GPU算力,助力头部AGI厂商和国家级实验室突破模型训练效率瓶颈,加速SOTA模型研发,推动我国AI技术全球竞争。其“高性能+低成本”平衡方案降低AI落地门槛,使中小型AI企业无需承担高昂全闪存成本即可获得TB/s级存储能力,推动AI技术在制造、医疗、金融等行业普及。混闪架构与智能分层减少高能耗全闪存使用,某智算中心采用方案后,存储系统年耗电量降低28%,符合“双碳”目标,助力AI产业绿色发展。

XSKY星辰天合作为面向AI时代的统一数据平台提供商,十年专注分布式存储,长期位列IDC市场报告“TOP 5”,且是唯一独立存储厂商,在对象存储市场保持领导者地位。公司产品已在3000余家客户的企业级生产环境验证,为AI创新与数据基础设施现代化提供可靠数据底座。合作方某通用人工智能科技公司是全球领先的AGI企业,自主研发的多模态通用大模型在代码生成、智能体能力及超长上下文处理方面表现卓越,服务覆盖全球超200个国家及地区,触达个人用户超一亿,为超5万家企业客户与开发者提供技术支持。

该AI Infra案例将角逐由金猿组委会、数据猿和上海大数据联盟联合推出的《2025中国大数据产业年度AI Infra领先企业》榜单/奖项。榜单将于1月上旬在上海举办的“2025第八届金猿大数据产业发展论坛——暨AI Infra & Data Agent趋势论坛”现场揭晓并颁奖,欢迎报名参与。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version