ITBear旗下自媒体矩阵:

英伟达Nemotron 3 Super模型:性能与效率双突破,重塑AI推理新格局

   时间:2026-04-23 01:17:56 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在人工智能领域,大模型的性能与效率平衡始终是核心挑战。英伟达研究团队近日推出名为Nemotron 3 Super的模型,通过架构创新与工程优化,在保持1200亿参数规模的同时,仅激活约120亿参数即可运行,实现推理速度较同类模型提升2.2至7.5倍的突破。该成果以技术报告形式在arXiv平台公开,编号为arXiv:2604.12374v1,所有训练代码、数据集及模型权重均通过HuggingFace平台向全球开发者开放。

传统混合专家模型(MoE)通过动态激活部分专家模块提升效率,但内存带宽与节点间通信成本仍制约性能。Nemotron 3 Super引入的LatentMoE架构通过"压缩投影矩阵"将输入数据降至1024维潜在空间,使专家路由与计算在低维空间完成,数据传输量减少75%。模型配置512个专家模块,每次激活22个,在保持1200亿参数总规模的前提下,将内存占用与通信开销压缩至传统架构的1/4。实验显示,该设计使模型在B300 GPU上的吞吐量较GPT-OSS-120B提升120%,较Qwen3.5-122B提升650%。

多词预测(MTP)机制的引入进一步加速推理过程。主模型并行运行"草稿员"子模块,预先生成后续7个候选词,主模型仅需验证而非重新计算。通过参数共享训练策略,预测头在保持92%接受率的同时,长序列预测稳定性提升40%。在代码生成任务中,该机制使模型输出冗长度降低35%,用户响应延迟减少50%。研究团队开发的SPEED-Bench基准测试显示,Nemotron 3 Super在7词草稿场景下的平均接受长度达3.45词,较DeepSeek-R1提升28%。

模型架构采用88层混合设计,交替部署Mamba-2状态空间模块与传统自注意力层。Mamba-2模块通过固定大小状态向量压缩历史信息,使长文本处理内存占用恒定,较注意力层降低90%计算量。自注意力层则作为"全局锚点",每8层插入一次以维持长距离语义关联。这种设计支持模型处理长达100万词元的上下文,在RULER长文本基准测试中,64K词元场景得分92.26,100万词元场景仍保持91.64的高分。

预训练阶段采用NVFP4超低精度格式,每个参数仅用4位存储,较BF16格式节省75%内存。通过动态精度分配策略,模型仅在最后15%层、潜在投影层及多词预测层保留BF16精度,其余模块采用NVFP4或MXFP8格式。实验发现,NVFP4训练加速梯度稀疏化进程,使权重梯度零值比例较BF16训练提升10-25倍,但通过AutoQuantize混合精度搜索算法,最终模型在20余个基准测试中的精度损失控制在0.2%以内。

训练数据集包含25万亿词元,覆盖网页文本、代码、学术文献、多语言内容等16大类。研究团队特别构建1500万对Python问题解答数据集、350万条经济学选择题及形式逻辑推理题等专项数据。后训练阶段引入700万条监督微调样本,并通过三轮强化学习优化模型能力:首轮21种环境并行训练提升通用性,次轮软件工程专项训练增强代码能力,末轮人类偏好对齐训练优化交互体验。最终模型在HMMT数学竞赛题测试中取得93.67分,SWE-Bench软件工程任务得分60.47,较GPT-OSS-120B提升44%。

量化部署方案提供FP8与NVFP4双版本,适配不同硬件架构。FP8版本在Hopper GPU上实现1.8倍加速,NVFP4版本在Blackwell GPU上进一步提速30%。针对Mamba状态缓存的量化挑战,研究团队开发动态缩放算法,将代码生成任务的输出冗长度控制在5%以内。实际部署测试显示,在B200 GPU上,NVFP4版本模型以8K输入、64K输出配置运行时,每秒可处理请求数是Qwen3.5-122B的7.5倍,较GPT-OSS-120B提升120%。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version