ITBear旗下自媒体矩阵:

蚂蚁技术研究院发布LLaDA2.0 扩散语言模型 参数达100B且开源共享

   时间:2025-12-12 18:41:23 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

蚂蚁技术研究院近日正式发布全新离散扩散大语言模型系列——LLaDA2.0,同步公开的技术报告显示,该系列包含100B参数的"flash"版本与16B参数的"mini"版本,成为全球首个突破百亿参数的扩散语言模型。这一突破性成果标志着扩散模型在参数规模扩展领域取得重大进展,成功打破业界对扩散模型难以规模化应用的固有认知。

研发团队创新采用混合专家(MoE)架构,通过模块化设计实现模型性能与计算效率的平衡。在训练策略方面,提出的Warmup-Stable-Decay(WSD)持续预训练方法,使新模型能够直接继承现有自回归(AR)模型的知识体系,避免了传统从头训练带来的高昂成本。配合置信度感知并行训练(CAP)与扩散模型专用DPO技术,在保证生成质量的同时,将推理速度提升至AR模型的2.1倍。

多维度评估数据显示,LLaDA2.0在结构化生成任务中表现尤为突出。在代码生成、数学推理及智能体交互等场景下,其性能指标全面超越同级别AR模型,而在自然语言理解等基础能力方面则与开源AR模型持平。这种"专长强化+基础稳固"的特性,为特定领域的大模型应用开辟了新路径。

为推动技术生态发展,研究院已将16B与100B两个版本的模型权重及完整训练代码开源至Huggingface平台。开发者可通过公开资源复现训练过程,或基于现有模型进行二次开发。此次开源不仅降低了超大规模模型的技术门槛,更为学术界提供了研究扩散模型规模化应用的重要样本。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version