ITBear旗下自媒体矩阵:

英伟达新突破:单一AI模型“变身”多规格,训练成本直降360倍

   时间:2026-01-17 02:11:35 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

人工智能领域迎来一项突破性进展——英伟达研究团队提出的多规格弹性模型框架Nemotron Elastic,通过创新技术实现单次训练生成多个不同参数规模的子模型,为AI模型开发效率与部署灵活性树立新标杆。这项成果已在学术平台公开,其核心思想是通过"套娃式"架构设计,让120亿参数的主模型同时兼容90亿和60亿参数的变体,在数学推理、代码生成等复杂任务中保持性能的同时,将训练成本降低至传统方法的1/360。

传统模型开发模式如同定制三套不同尺寸的西装,需分别采购面料、裁剪缝制,既耗时又昂贵。Nemotron Elastic则通过参数共享机制,在单一架构中嵌套多个子模型,如同俄罗斯套娃般实现层级激活。研究团队开发的智能路由系统扮演关键角色,该系统通过两层全连接网络动态判断任务需求,自动选择激活120亿参数的全量模型、90亿参数的精简版或60亿参数的轻量版,整个过程无需额外调优,部署时内存占用较传统方案减少43%。

混合架构创新是该技术的另一突破。研究团队将擅长长序列处理的Mamba架构与擅长精准推理的注意力机制深度融合,通过群组感知压缩技术维持两种架构的完整性。在处理49152个token的超长文本时,模型展现出强大的上下文理解能力,在AIME-2025数学竞赛基准测试中,60亿参数子模型的得分从56.88提升至68.13,证明轻量模型同样具备复杂推理潜力。这种架构设计使模型既能像电动车般高效处理长序列,又能如燃油车般精准执行复杂计算。

训练策略的革新同样值得关注。研究团队采用两阶段训练法:初期使用8192个token的短文本进行基础能力训练,确保各规格模型掌握核心技能;后期转向超长文本训练,针对120亿、90亿、60亿参数模型分别分配50%、30%、20%的计算资源。这种动态资源分配策略解决了大模型在长文本训练中性能退化的问题,配合冻结教师模型的知识蒸馏技术,使子模型在继承主模型推理能力的同时,形成各自的优势领域。

实验数据显示,该技术训练120亿/90亿/60亿参数模型族仅消耗1100亿训练令牌,较传统方法节约99.7%的计算资源。在MATH-500数学基准测试中,弹性训练的120亿模型取得97.70分,超越原始模型的97.50分;90亿参数子模型在多数任务中达到甚至超越同规模专用模型表现。内存效率方面,单模型提供三规格服务仅需24GB内存,较传统部署方案节省43%空间,为边缘设备部署大型语言模型开辟新路径。

技术细节层面,路由系统采用Gumbel-Softmax技术实现离散选择的连续优化,通过温度参数控制训练探索与利用的平衡。动态掩码技术则像智能调光系统,可针对嵌入层、注意力头、前馈网络等组件实施差异化压缩,支持同构与异构两种配置模式。在长上下文训练阶段,模型通过49152个token的输入学习处理完整推理链,这种训练方式使60亿参数模型在GSM8K数学推理基准上的表现提升27%,证明轻量模型同样具备深度思考能力。

该技术的开源将产生深远影响。中小企业现在可用单次训练获得覆盖云端到边缘设备的完整模型族,降低AI应用门槛;研究人员得以探索混合架构的弹性化潜力,推动Mamba与Transformer等不同技术路线的融合创新。在环保层面,360倍的训练成本降低意味着相应规模的能源节约,为AI技术可持续发展提供示范。随着社区开发者基于该框架展开二次创新,预计将涌现出更多适应不同场景的弹性模型解决方案。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version