ITBear旗下自媒体矩阵:

蚂蚁技术研究院发布LLaDA2.0:业内首推100B扩散语言模型并开源

   时间:2025-12-13 00:29:49 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

蚂蚁技术研究院近日正式发布全新离散扩散大语言模型LLaDA2.0系列,包含160亿参数的MoE架构mini版本与1000亿参数的flash版本。该成果被业界视为扩散模型领域的重要突破,首次将此类模型的参数规模推进至千亿量级,同步公开的技术报告显示其多项性能指标超越传统自回归模型。

研发团队通过创新架构设计突破了扩散模型扩展瓶颈。LLaDA2.0采用混合专家(MoE)架构,在保持模型灵活性的同时实现参数高效利用。其中100B版本凭借独特的参数扩展方案,成功将扩散模型的训练规模提升至传统架构难以企及的千亿级别,为超大规模语言模型开辟了新的技术路径。

在性能验证环节,该模型展现出显著优势。通过WSD持续预训练策略,新模型可直接继承现有自回归模型的知识体系,避免重复训练带来的资源消耗。结合置信度感知并行训练(CAP)与扩散模型专用优化算法,模型在保证生成质量的前提下,解码速度较传统自回归模型提升2.1倍,特别在代码生成、数学推理等结构化任务中表现突出。

多维度评估数据显示,LLaDA2.0在代码生成任务中展现出独特优势,其生成的代码结构完整性较同类模型提升18%。在数学推理和智能体交互等复杂场景中,模型性能与主流开源自回归模型持平,而在特定结构化输出任务中则表现出更强的生成稳定性。这种差异化优势为不同应用场景提供了新的技术选择。

为推动技术普惠,研究团队已将16B和100B两个版本的模型权重及训练代码完整开源至Huggingface平台。此举不仅降低了超大规模模型的技术门槛,更为学术界和产业界提供了可复现的研究基准。开发者可基于开源框架进行二次开发,探索扩散模型在更多垂直领域的应用可能性。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version