ITBear旗下自媒体矩阵:

蚂蚁赵俊博押注扩散架构:探索语言模型新路径,千亿级LLaDA 2.0已开源

   时间:2025-12-12 21:44:28 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在近期举办的智能未来行业峰会上,浙江大学研究员、蚂蚁集团技术专家赵俊博提出,扩散架构正成为语言模型领域的新探索方向。与主流自回归模型不同,扩散架构通过"完形填空"机制实现文本生成,在推理阶段可直接修改中间token,无需像自回归模型那样重新生成整段内容。这种特性使其在生成速度和计算成本上具备潜在优势。

研究团队发布的千亿参数规模模型LLaDA 2.0,成为扩散语言模型发展的重要里程碑。该模型采用混合注意力机制,在区块间保留自回归约束的同时实现内部并行解码。实验数据显示,在相同计算量条件下,扩散模型所需参数规模比自回归模型减少30%以上,且能持续吸收训练数据,突破传统模型在多个训练周期后的性能瓶颈。

技术实现层面,研究团队攻克了多重挑战。通过设计动态注意力掩码,模型同时支持全局注意力捕捉长程依赖和因果注意力维持序列连贯性。针对长文本处理,团队引入几何加权方法和分块扩散策略,优化了文本与文档的注意力计算效率。开源的训练框架已集成5D并行计算和灵活注意力适配模块,支持监督微调和直接偏好优化等训练范式。

实际应用测试中,扩散模型展现出独特优势。在代码生成任务中,其并行解码特性使模型能同时输出多个token,类似编程工具的自动补全功能。文学创作测试显示,模型会先构建文本框架,再通过多轮迭代优化中间内容,这种非线性的生成轨迹与传统模型形成鲜明对比。视频演示表明,在全局注意力支持下,扩散模型在语义理解任务上达到更高准确率。

该领域已吸引科技巨头和初创公司竞相布局。谷歌推出的Gemini Diffusion、字节跳动的相关项目,以及美国初创公司Mercury系列均验证了技术可行性。研究团队坦言,扩散语言模型在训练推理层面仍处早期阶段,其扩展规律与自回归模型存在本质差异。当参数规模突破千亿后,模型将面临新的工程挑战,这需要整个技术社区共同探索解决方案。

目前研究团队已开放技术报告和模型代码,并与模型接入平台合作推出部分API服务。虽然当前模型规模尚未达到主流水平,但开源社区的活跃参与正在加速技术迭代。这种不同于自回归模型的生成范式,正在为语言处理领域开辟新的技术路径。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version