ITBear旗下自媒体矩阵:

性能提升超两倍:英伟达发布 Nemotron-Labs-TwoTower 扩散语言模型

   时间:2026-07-02 02:39:11 来源:CHINAZ编辑:快讯 IP:北京 发表评论无障碍通道
 

在追求大模型生成效率的道路上,英伟达近日给出了新的解法。7月1日,英伟达正式开源了旗下最新的Nemotron-Labs-TwoTower扩散语言模型,旨在通过架构创新打破传统自回归(AR)模型的吞吐量瓶颈。

传统的自回归模型在处理文本生成时,需要逐个 token 串行解码,这在面对大规模合成任务时显得效率不足。英伟达提出的“双塔”架构则另辟蹊径,将任务拆解为两个部分:一个是保持冻结状态的“上下文塔”,负责处理提示词并保留原有的语言理解能力;另一个则是经过特定训练的“去噪器塔”,专门负责并行生成并优化 token。

这种架构设计的精妙之处在于平衡了“质量”与“速度”。在2×H100GPU 的评测环境下,该模型在默认设置下成功保留了基线模型98.7% 的生成质量,而其实际生成吞吐量却实现了2.42倍的显著提升。这意味着对于需要批量生产合成文本的数据团队而言,这无疑是一款兼具高性能与高效率的利器。

在具体运作上,该模型具备极高的灵活性,支持扩散模式、模拟 AR 和标准 AR 三种解码方式,开发者可以根据任务需求自由选择。目前,该模型已作为开放权重项目发布,遵循 NVIDIA Nemotron 开放模型许可协议,完全支持商业用途。

尽管该模型在代码生成和数学推理任务上相较于原始基线有轻微性能回落,且对 GPU 显存有一定要求,但其为大模型推理加速提供了一个极具潜力的技术方向。随着人工智能应用向高频、大规模场景渗透,这种通过算法架构优化来换取生成速度的思路,正在成为模型研发的新趋势。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version