ITBear旗下自媒体矩阵:

英伟达开源新标杆:Nemotron 3架构创新,10万亿token数据及训练配方全公开

   时间:2025-12-26 22:09:41 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

英伟达在开源大模型领域再掀波澜,其最新推出的Nemotron 3系列模型凭借激进的技术路线引发行业关注。该系列不仅采用混合架构突破传统设计框架,更以全链路开源策略打破行业惯例,从训练数据到软件工具均向社区开放。

在架构创新层面,Nemotron 3系列通过混合Mamba-Transformer与MoE(混合专家)架构实现效率跃升。针对Transformer模型因自注意力机制导致的长序列计算瓶颈,研发团队引入大量Mamba-2层替代自注意力层。以Nano型号为例,其核心结构由交替堆叠的Mamba-2层与MoE层构成,仅保留少量自注意力层处理关键任务。这种设计使模型在8k输入、16k输出的典型场景下,吞吐量达到同类模型的3.3倍,且随着序列长度增加优势愈发显著。在长上下文任务测试中,新模型在百万token输入条件下仍保持68.2分的高水准,较前代模型提升近3倍。

针对不同规模模型的需求差异,研发团队提出LatentMoE架构优化专家路由机制。该技术通过将token投影至低维潜在空间进行专家计算,使显存读取与通信开销降低至传统方法的四分之一。实验数据显示,采用该架构的Ultra模型在保持80亿激活参数量的前提下,专家数量从128个增至512个,每个token激活的专家数从6个提升至22个。这种设计在MMLU-Pro、代码生成等任务中带来显著提升,其中数学任务准确率从78.32%跃升至80.19%。

在训练效率方面,NVFP4低精度格式的应用成为关键突破。这种4位浮点格式通过创新的微块缩放技术,在GB300硬件上实现FP8格式3倍的吞吐量。研发团队成功完成25万亿token的稳定训练,在保持模型精度的同时大幅降低计算成本。值得注意的是,该技术对Mamba输出投影层等关键组件采用差异化精度策略,确保关键路径的数值稳定性。

后训练阶段的多环境强化学习框架展现出独特优势。不同于传统分阶段训练模式,该系统同时处理数学推理、编程竞赛、工具使用等八大类任务,通过异步架构解耦训练与推理过程。实验表明,这种同步训练方式使AIME25数学评分从80分提升至90分,工具使用能力评分提升25%。为提升实际部署灵活性,模型还引入思维预算控制机制,允许用户通过设定token上限平衡生成质量与响应速度。

全链路开源策略成为该系列模型的另一大亮点。除模型权重外,研发团队同步开放超过10万亿token的训练数据集、预训练软件栈及训练配方。后训练工具链包含可扩展的RL训练框架NeMo-RL与环境集合NeMo-Gym,均采用Apache 2.0协议开源。这种开放模式为学术界与产业界提供了完整的研究基准,有望推动大模型技术生态的快速发展。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version