ITBear旗下自媒体矩阵:

蚂蚁集团开源dInfer框架:扩散语言模型推理提速,单批次性能首超自回归模型

   时间:2025-10-14 01:49:50 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

蚂蚁集团近日宣布正式开源一款名为dInfer的高性能推理框架,这是业界首个专为扩散语言模型设计的工程化解决方案。该框架通过算法与系统的深度协同优化,成功突破了扩散模型在推理效率上的长期瓶颈,为大规模语言模型的应用开辟了新的技术路径。

在性能测试中,dInfer展现出显著优势。基于8块NVIDIA H800GPU的节点测试显示,其平均推理速度达到681Tokens/秒,较英伟达Fast-dLLM框架提升10.7倍;在代码生成基准Humaneval上,单批次推理速度突破1011Tokens/秒,首次在开源领域实现扩散模型对自回归模型的效率超越。与运行在vLLM框架上的Qwen2.5-3B模型相比,dInfer的推理速度达到其2.5倍,而模型精度保持相当水平。

扩散语言模型作为新兴技术范式,将文本生成过程重构为"从噪声中逐步恢复有序序列"的去噪机制。这种模式具备三大核心优势:高度并行的计算特性、全局性的语义把握能力以及灵活的结构设计。以蚂蚁集团与中国人民大学联合研发的LLaDA-MoE系列模型为例,其在多项基准测试中已达到与顶尖自回归模型相当的精度水平。然而,受限于计算成本高企、KV缓存管理低效、并行解码困难等技术瓶颈,扩散模型的推理效率长期未能充分发挥。

dInfer框架通过模块化设计破解这些难题。其架构包含四大核心组件:模型接入层支持LLaDA、LLaDA-MoE等主流扩散模型;KV缓存管理器优化内存使用效率;迭代管理器实现计算流程的动态调度;解码策略模块提供多种并行解码方案。这种乐高式架构允许开发者自由组合优化策略,并在统一平台上进行标准化评估。针对扩散模型特有的三大挑战,每个模块都集成了定制化解决方案。

技术突破的背后是系统性的工程创新。dInfer团队通过重构计算图、优化内存访问模式、设计动态批处理机制等技术手段,有效降低了计算开销。在代码生成任务中,框架通过精细化控制迭代步长和注意力计算范围,在保持生成质量的同时大幅提升处理速度。实验数据显示,在相同硬件条件下,dInfer的内存占用较传统方案降低40%,而吞吐量提升3倍以上。

蚂蚁集团技术团队表示,dInfer的开源标志着扩散语言模型从实验室研究向产业应用的关键跨越。该框架不仅为学术界提供了高性能研究平台,更为工业界部署大规模扩散模型扫除了效率障碍。通过开放核心代码和技术文档,研发团队希望吸引全球开发者共同完善生态,推动建立更高效的AI基础设施标准。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version