ITBear旗下自媒体矩阵:

蚂蚁技术研究院发布LLaDA2.0:100B级扩散语言模型开源 性能更强推理更快

   时间:2025-12-12 17:01:28 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

蚂蚁技术研究院近日正式发布新一代离散扩散大语言模型LLaDA2.0系列,同步公开的技术报告显示,该系列包含160亿参数(16B)的MoE架构mini版本和千亿参数(100B)的flash版本,首次将扩散模型参数规模突破至百亿量级,成为全球首个达到此量级的扩散语言模型。

研究团队通过创新架构设计,成功解决了扩散模型在参数扩展过程中面临的稳定性难题。其中100B版本采用混合专家(MoE)架构,在保持模型精度的同时显著降低计算成本。实验数据显示,该模型在代码生成、数学推理和智能体协作等任务中展现出超越传统自回归(AR)模型的性能表现,尤其在结构化数据生成领域形成显著优势。

技术突破的核心在于三项创新:Warmup-Stable-Decay(WSD)持续预训练策略实现与现有AR模型的知识无缝迁移,避免从头训练的高昂成本;置信度感知并行训练(CAP)机制突破传统监督微调(SFT)的局限;扩散模型版直接偏好优化(DPO)算法在保证生成质量的前提下,充分发挥扩散模型的并行解码特性。这些技术组合使模型推理速度较AR模型提升2.1倍,在千亿参数规模下实现效率与效果的双重突破。

多维度评估体系验证了模型实力。在知识理解、数学运算、代码编写、逻辑推理及智能体协作等五大核心能力测试中,LLaDA2.0在代码生成任务上表现尤为突出,其他领域性能与主流开源AR模型持平。研究团队特别强调,模型在处理复杂逻辑结构和长序列生成任务时展现出独特优势,这得益于扩散模型特有的概率采样机制。

为推动技术普惠,研究团队已将16B和100B两个版本的模型权重及完整训练代码在Huggingface平台开源。此举不仅为学术界提供研究基准,更为工业界应用超大规模扩散模型降低技术门槛。开源内容包括预训练框架、微调工具链及评估指标体系,形成完整的技术生态闭环。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version