滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

英伟达Nemotron 3 Super模型：性能与效率双突破，重塑AI推理新格局

时间：2026-04-23 01:17:56 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能领域，大模型的性能与效率平衡始终是核心挑战。英伟达研究团队近日推出名为Nemotron 3 Super的模型，通过架构创新与工程优化，在保持1200亿参数规模的同时，仅激活约120亿参数即可运行，实现推理速度较同类模型提升2.2至7.5倍的突破。该成果以技术报告形式在arXiv平台公开，编号为arXiv:2604.12374v1，所有训练代码、数据集及模型权重均通过HuggingFace平台向全球开发者开放。

传统混合专家模型（MoE）通过动态激活部分专家模块提升效率，但内存带宽与节点间通信成本仍制约性能。Nemotron 3 Super引入的LatentMoE架构通过"压缩投影矩阵"将输入数据降至1024维潜在空间，使专家路由与计算在低维空间完成，数据传输量减少75%。模型配置512个专家模块，每次激活22个，在保持1200亿参数总规模的前提下，将内存占用与通信开销压缩至传统架构的1/4。实验显示，该设计使模型在B300 GPU上的吞吐量较GPT-OSS-120B提升120%，较Qwen3.5-122B提升650%。

多词预测（MTP）机制的引入进一步加速推理过程。主模型并行运行"草稿员"子模块，预先生成后续7个候选词，主模型仅需验证而非重新计算。通过参数共享训练策略，预测头在保持92%接受率的同时，长序列预测稳定性提升40%。在代码生成任务中，该机制使模型输出冗长度降低35%，用户响应延迟减少50%。研究团队开发的SPEED-Bench基准测试显示，Nemotron 3 Super在7词草稿场景下的平均接受长度达3.45词，较DeepSeek-R1提升28%。

模型架构采用88层混合设计，交替部署Mamba-2状态空间模块与传统自注意力层。Mamba-2模块通过固定大小状态向量压缩历史信息，使长文本处理内存占用恒定，较注意力层降低90%计算量。自注意力层则作为"全局锚点"，每8层插入一次以维持长距离语义关联。这种设计支持模型处理长达100万词元的上下文，在RULER长文本基准测试中，64K词元场景得分92.26，100万词元场景仍保持91.64的高分。

预训练阶段采用NVFP4超低精度格式，每个参数仅用4位存储，较BF16格式节省75%内存。通过动态精度分配策略，模型仅在最后15%层、潜在投影层及多词预测层保留BF16精度，其余模块采用NVFP4或MXFP8格式。实验发现，NVFP4训练加速梯度稀疏化进程，使权重梯度零值比例较BF16训练提升10-25倍，但通过AutoQuantize混合精度搜索算法，最终模型在20余个基准测试中的精度损失控制在0.2%以内。

训练数据集包含25万亿词元，覆盖网页文本、代码、学术文献、多语言内容等16大类。研究团队特别构建1500万对Python问题解答数据集、350万条经济学选择题及形式逻辑推理题等专项数据。后训练阶段引入700万条监督微调样本，并通过三轮强化学习优化模型能力：首轮21种环境并行训练提升通用性，次轮软件工程专项训练增强代码能力，末轮人类偏好对齐训练优化交互体验。最终模型在HMMT数学竞赛题测试中取得93.67分，SWE-Bench软件工程任务得分60.47，较GPT-OSS-120B提升44%。

量化部署方案提供FP8与NVFP4双版本，适配不同硬件架构。FP8版本在Hopper GPU上实现1.8倍加速，NVFP4版本在Blackwell GPU上进一步提速30%。针对Mamba状态缓存的量化挑战，研究团队开发动态缩放算法，将代码生成任务的输出冗长度控制在5%以内。实际部署测试显示，在B200 GPU上，NVFP4版本模型以8K输入、64K输出配置运行时，每秒可处理请求数是Qwen3.5-122B的7.5倍，较GPT-OSS-120B提升120%。

更多>同类资讯

AI入局影视圈：中底层演员路在何方？人类表演魅力能否坚守？

04-23

AI“侦探长”上线：多探员并行搜证，精准工具翻阅锁定最优解

04-23

AI量子编程大挑战：三大框架谁更让AI“头疼”？

04-23

NVIDIA推SPEED-Bench评测体系：破解大模型推理加速评测难题

04-23

AI文字生成新策略：巧妙调度模型，兼顾质量与效率的智慧之选

04-23

地平线“三箭”布局：从芯片到系统，抢占整车智能新赛道关键位

04-23

速腾聚创发布“创世”架构及两款芯片，激光雷达开启图像化感知新篇章

04-23

AI时代阅读新解：以精读深耕自我，在“主动狩猎”中收获成长

04-23

OpenAI意外“剧透”：GPT-5.5等多款前沿AI模型提前现身Codex CLI终端

04-23

OpenAI拟投至多15亿美元入股私募合资企业发力企业AI工具市场

04-23

特斯拉车机语音服务升级：豆包大模型助力，DeepSeek模型提供AI互动新体验

04-22

Anthropic加速开发常驻AI智能体Conway 或将打造跨平台模块化新体验

04-22

别克至境E7上市！大五座布局配插混系统，权益价15.49万起

04-22

阿维塔06T旅行车上市！21.29万起售，华为赋能智驾动力双升级

04-22

中国长安自我重构：以“1445”计划冲刺全球汽车竞争新高度

04-22

点击查看更多 +

全站最新

钛动科技获农行百亿授信！一张对民营AI科技企业的"信心投票"

公告精选︱顾家家居：拟不超11.88亿元投资建设产业总部项目；沪电股份：一季度净利润12.42亿元同比增长62.9%

江西铜业股份(00358.HK)获贝莱德增持3.4万股

京东AI新探索：实习生挑大梁，大厂抢人从“0到1”培养开始

盒马自研一体化牛奶新包装，减纸超四成，环保与体验双提升

京东与松延动力强强联合共绘人形机器人全场景应用与普及新蓝图

热门内容

本栏最新

别克至境E7上市！大五座布局配插混系统，权益价15.49万起

阿维塔06T旅行车上市！21.29万起售，华为赋能智驾动力双升级

中国长安自我重构：以“1445”计划冲刺全球汽车竞争新高度

荣威家越07概念车亮相：以昂扬美学与AI原生，开启家庭智能出行新篇章

别克至境E7上市：大五座插混SUV，续航超长配置丰富权益价诱人

阿维塔06T正式登场！未来美学设计，多种动力可选，现金权益后21.29万起

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.