在强化学习领域,超大模型的训练与部署长期面临显存容量与通信效率的双重挑战。近期,由多支技术团队联合攻关的INT4量化感知训练(QAT)方案取得突破性进展,成功将1TB级模型压缩至单张H200显卡(141GB显存)内运行,在保持训练稳定性的同时,显著提升了Rollout效率。
该方案创新性地采用"训练端伪量化+推理端真实量化"的组合策略。训练阶段通过插入量化-反量化操作模拟低精度计算,利用STE梯度直通技术解决量化不可导问题,确保模型在BF16主权重基础上适应INT4精度分布。推理阶段则采用W4A16(INT4权重×BF16激活)混合精度计算,通过动态打包技术将8个INT4数值压缩至单个INT32存储,在保持数学等效性的同时减少75%内存占用。
技术实现层面,研究团队对Megatron-LM框架进行深度改造。在前向传播中,基于分组最大绝对值动态量化技术,将权重范围约束在[-7,7]区间;反向传播时通过定制化Kernel实现梯度无损传递。针对MoE模型特性,开发了动态块对齐算法,根据Token分布自动优化专家计算单元的显存利用率,使带宽效率提升40%以上。
实验数据显示,在dapo-math-17k数据集上,采用INT4推理的Qwen3-235B模型与BF16基线相比,原始奖励值(Raw-Reward)增长曲线高度吻合,AIME基准测试评分差异控制在0.3%以内。更关键的是,通过显存压缩实现的单机部署方案,使跨节点通信开销归零,在235B参数规模下,Rollout阶段吞吐量较FP8方案提升18%,较基础BF16方案提升32%。
该成果在开源社区引发广泛关注,其核心价值体现在三个方面:首先突破硬件限制,通过极致量化使单机承载模型参数规模提升一个数量级;其次实现训推全流程精度对齐,消除传统量化方案中常见的分布偏移问题;最后构建了完整的工具链,支持GPTQ、AWQ等多种量化格式的无缝转换,兼容对称/非对称量化模式。
技术团队透露,当前方案在训练阶段仍存在约15%的性能损耗,主要源于伪量化操作的额外计算开销。后续优化将聚焦于训练Kernel的融合重构,计划通过算子合并与并行化改造,将QAT训练效率提升至BF16模式的90%以上。同时,随着NVIDIA Blackwell架构的普及,团队正探索FP4量化在强化学习场景的应用潜力,预计可在现有基础上进一步压缩50%显存占用。











