英伟达在人工智能领域再次投下重磅炸弹,正式推出专为大规模AI智能体设计的新一代开源模型——Nemotron 3 Super。这款拥有1200亿参数的模型,在性能上直逼行业顶尖水平,其推理速度较前代提升3倍,吞吐量更是暴涨5倍,成为OpenClaw领域的又一强力竞争者。
Nemotron 3 Super采用创新的Mamba-MoE混合架构,有效解决了多智能体协同中的性能瓶颈问题。作为Nemotron 3家族的最新成员,该模型实现了三大技术突破:原生采用NVFP4精度进行预训练,引入全新的LatentMoE混合专家架构,以及加入多Token预测(MTP)层。这些创新使得模型在单位算力和单位参数的准确率上达到极致优化。
在基准测试中,Nemotron 3 Super表现出色。在Pinchbench测试中稳居开源模型榜首,在OpenClaw任务成功率上达到85.6%,性能与Claude Opus 4.6、GPT-5.4等顶尖模型不相上下。更令人瞩目的是,英伟达决定将超过10万亿Token的预训练和后训练数据集、完整训练方法论,以及15个强化学习环境全部开源,供全球开发者使用。
针对多智能体应用面临的两大挑战——上下文爆炸和"思考税",Nemotron 3 Super提供了有效解决方案。该模型支持100万token的上下文窗口,在OpenClaw环境下可完整保留工作流状态,确保逻辑一致性。同时,通过创新的架构设计,大幅降低了多智能体应用的成本和延迟,使其更具实际部署价值。
在架构设计上,Nemotron 3 Super的88层网络采用周期性交替排列,Mamba-2层与少量Transformer注意力层相结合,既保证了高效的序列建模,又实现了跨位置的长距离信息路由。这种设计使其吞吐量较前代提升5倍,准确率提升2倍,在输入输出序列较长时表现尤为突出。
LatentMoE架构的引入是该模型的另一大亮点。通过将Token从高维隐藏空间投射到低维潜在空间进行路由和计算,显著减少了专家参数加载量和跨卡通信量。这种设计使得模型能够在不增加推理成本的情况下,激活更多专家,从而提升准确率。英伟达官方表示,这种设计相当于"花1个专家的成本,激活4个专家"。
多Token预测(MTP)技术的加入,进一步提升了模型性能。与传统单token预测不同,MTP要求模型在每个位置预测多个未来token,迫使其理解更复杂的因果关系和文本结构。这不仅提高了模型质量,还通过原生投机解码大幅降低了生成延迟,且额外算力开销极小。
预训练阶段,Nemotron 3 Super采用两阶段策略:第一阶段使用20万亿token的多样化数据,覆盖网页、代码、数学、学术等多个领域;第二阶段使用5万亿token的高质量数据,重点提升准确率。这种训练方式使基础模型在MMLU等基准测试中取得优异成绩,超越同等规模的其他模型。
在后训练方面,英伟达将重点放在提升AI智能体能力上。SFT阶段使用超过700万样本、800亿token的数据,其中Agent相关任务占比高达36%。RL阶段则通过多环境训练、软件工程专项训练、RLHF和MTP恢复四步走策略,显著提升了模型在数学推理、长上下文处理和软件工程等任务上的表现。
Nemotron 3 Super的高精度工具调用能力,为OpenClaw智能体在多个领域的应用开辟了新可能。在软件开发中,AI可一次性加载整个代码库,实现端到端的代码生成和调试;在财务分析领域,模型可直接处理数千页报告,大幅提升工作效率。这种能力也使自主Agent在网络安全等高风险环境中能够更可靠地执行任务。
据悉,多家科技公司已开始将Nemotron 3 Super集成到自家产品中。Perplexity将其用于搜索服务,CodeRabbit等公司将其应用于软件开发智能体,生命科学领域的Edison Scientific等机构则利用其进行深度文献检索和分子结构分析。有消息称英伟达正在开发名为NemoClaw的开源AI智能体平台,旨在为企业市场提供安全可靠的解决方案。











