滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

字节跳动推出veScale-FSDP系统：为AI大模型训练注入灵活高效新动能

时间：2026-02-28 03:03:43 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能模型训练领域，超大规模语言模型的训练如同搭建精密复杂的科技大厦，需要成千上万个GPU协同工作。其中，“全分片数据并行”技术（FSDP）是关键支撑，但传统FSDP系统存在明显局限，如同固定尺寸的积木难以应对复杂搭建需求。字节跳动研究团队针对这一问题，开发出veScale - FSDP系统，为AI训练带来新突破。

传统FSDP系统问题诸多。当研究人员尝试运用矩阵优化器Muon或8位量化训练等先进技术时，传统系统因只能按固定方式切分数据，无法满足新技术对数据块状结构的特定处理要求，就像刀具只能横切或竖切，难以完成复杂切割。而且，在性能方面，当训练规模扩展到上万个GPU时，系统通信效率和内存使用问题凸显，内存管理缺乏统一规划导致大量内存碎片，通信中的数据拷贝操作也造成显著性能损失。

veScale - FSDP系统的核心创新在于引入“RaggedShard”新型数据分片格式。与传统固定模具式的数据分片不同，RaggedShard如同可随意调整形状的橡皮泥模具，能根据具体需求灵活调整分片大小和形状。以拼图游戏类比，传统系统要求拼图块都是标准长方形，而RaggedShard允许拼图块有各种形状。处理Muon优化器时，它能确保每个设备上的数据块包含完整矩阵，避免矩阵被切断；对于8位量化训练，它能保证每个设备上的数据按量化块边界切分，使每个设备可独立完成量化操作，还能与张量并行、专家并行等现有并行化策略完美融合。

仅有灵活的数据分片还不够，高效通信是关键。veScale - FSDP开发了智能规划算法，解决不规则形状数据块的高效打包和传输问题，类似快递打包中如何将形状各异的物品装入标准快递箱，既要保证物品完好、空间利用率高，又要确保每个快递箱重量平衡。研究团队将此问题数学化为优化问题，在满足“非分片块约束”“连续内存约束”“严格负载平衡约束”三个关键条件下，最小化通信缓冲区大小。基于Transformer模型的结构特性，他们设计了多项式时间的动态规划算法，通过案例分析数据块与分片边界的三种可能关系，找到最佳数据布局方案。

为进一步提升性能，veScale - FSDP引入“分布式缓冲区”（DBuffer）新原语。传统FSDP系统通信时需大量数据拷贝操作，如同搬家时物品需多次搬运，效率低下。DBuffer实现零拷贝通信，像在房间和卡车间建立直通管道，物品可直接传输。它具有全局缓冲区语义、支持组级别操作、提供持久地址映射、支持原地通信和计算等关键特性，在实际测试中，使通信开销降低约7%，规划算法优化带来34%的性能提升，且这些优化自动进行，开发者无需修改模型代码。

veScale - FSDP在各种规模实验中表现卓越。在端到端训练性能对比中，该系统在MoE稀疏模型上比所有基线系统快11%到66%，在LLaMA - 3 - 70B密集模型上有5%的性能提升，这些提升源于优化的通信重叠、基于DBuffer的零拷贝集合通信以及避免填充开销的灵活分片粒度。内存使用方面，它将峰值预留内存降低16%到30%，得益于确定性的批量内存管理策略。扩展性测试显示，它能高效扩展到一万个GPU规模，在弱扩展性测试中保持接近线性扩展性，在强扩展性测试中也有良好表现。

为验证系统灵活性，研究团队测试了veScale - FSDP对8位Adam优化器和分布式Muon优化器的支持能力。8位Adam优化器需支持32×32的块级量化粒度，veScale - FSDP中开发者只需设置参数量化粒度，系统就能自动确保数据分片与量化块边界完美对齐，每个设备可独立量化操作。Muon优化器需在原始2D参数矩阵形状上进行Newton - Schulz迭代，veScale - FSDP通过RaggedShard的不均匀分片能力，让用户用标准SPMD方式编写分布式Muon算法。实验结果显示，该系统能高效支持这两种前沿优化技术，且性能表现良好。

veScale - FSDP的工程实现巧妙扩展了PyTorch的DTensor抽象，RaggedShard作为DTensor的新放置策略，无缝集成现有并行化基础设施。系统包含7600行Python代码，完全兼容标准PyTorch分布式运行时和广泛版本范围，作为FSDP2的即插即用后端，使用相同API，现有训练代码几乎无需修改就能享受性能提升。规划算法实际运行开销极小，时间复杂度为O(|T|?m log(E) log(|T|m))。

研究团队通过消融实验量化各组件贡献，结果显示DBuffer和规划算法贡献大部分性能提升，RaggedShard是支持块级8位Adam的关键抽象。veScale - FSDP已在字节跳动生产环境得到实战验证，成功支持超一万个GPU、2.4万亿参数规模的大规模训练任务。在实际部署中，研究团队总结出小规模实验可准确预测大规模性能、在成熟抽象基础上设计系统抽象、将模型定义与系统优化解耦等重要经验。

veScale - FSDP已开源，为整个AI社区提供了强大工具。无论是学术研究机构还是产业界，都能利用它训练更大、更复杂的AI模型，满足AI模型规模不断增长的需求。

更多>同类资讯

人形机器人遭多位大佬质疑，为何仍坚持“仿人”路线？

2. 罗德尼·布鲁克斯（现代机器人学教父、iRobot扫地机器人创始人、MIT教授）：直言人形机器人是注定破裂的泡沫，未来15年大量人形机器人会变成废铁；双足人形结构危险、效率低，改变世界的会是长得不像人、…

05-27

OpenAI 加速商业化：ChatGPT Ads Manager 全面开放，向中小企业“亮剑”

05-27

反向推高对手!谷歌强推 AI 搜索引爆舆论反弹，DuckDuckGo 下载量暴增30%

05-27

从颠覆者到“四不像”：严筱磊治下，盒马在数字迷宫中失了方向？

2025年1月1日那封内部信，就是严筱磊风格的最佳注脚——满篇都是：40座新城市、200+门店、营收增长超40%、服务超1亿消费者。它也想做性价比民生生意，但自营比例只有60%，远不如奥乐齐的90%以上，…

05-27

高通与字节跳动达成 AI 芯片供应协议，共同发力 AI 智能体基础设施

05-27

Anthropic 推出 Claude Mythos，凭借简明证明攻克 Erdős 数学猜想

05-27

不愿被强塞 AI 搜索！美国用户倒戈小众浏览器：安装量一周暴涨 30%

05-27

1.3B 模型的“降维打击”：MiniCPM-V 4.6 重新定义端侧多模态巅峰

05-27

小米集团2026年Q1业绩：汽车业务营收190亿元，交付8.09万辆

05-27

消息称埃隆 · 马斯克已与同事讨论过合并Tesla与SpaceX的可能

05-27

消息称马斯克考虑将特斯拉与SpaceX合并

05-27

OpenAI被曝广告业务新策略：吸引小型企业，降低投放门槛

05-27

消息称高通与字节跳动达成 AI ASIC 芯片合作，采购量在数百万颗级别

05-27

小米17T系列将于6月4日在海外发布：搭载徕卡相机天玑芯回归

05-27

AI赋能金融科技，奇富数科2026年一季度业务同比增速达700%

05-27

点击查看更多 +

全站最新

人形机器人遭多位大佬质疑，为何仍坚持“仿人”路线？

上海世外教育集团携手华为：共探教育数字化新路径共绘智慧教育新蓝图

从颠覆者到“四不像”：严筱磊治下，盒马在数字迷宫中失了方向？

2026年Q1荣耀海外成绩斐然：多区域突破中高端机型强势领跑

三体案终有果，小米汽车推新框架，抖音电商严资质，北京汽车制造厂禁用“北汽”

2026粤港澳大湾区车展来袭！小米汽车全系亮相，车模背包福利大放送

热门内容

本栏最新

人形机器人遭多位大佬质疑，为何仍坚持“仿人”路线？

从颠覆者到“四不像”：严筱磊治下，盒马在数字迷宫中失了方向？

三体案终有果，小米汽车推新框架，抖音电商严资质，北京汽车制造厂禁用“北汽”

2026粤港澳大湾区车展来袭！小米汽车全系亮相，车模背包福利大放送

2026车市剧变：燃油车促销难挽颓势，新能源崛起成主流新选择

AI浪潮下打工人危机四伏：超九成CEO计划裁员，投资回报却存疑

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.