ITBear旗下自媒体矩阵:

英伟达港大联手创新Fast-dLLM技术,加速扩散语言模型推理效率

   时间:2025-07-09 10:57:28 来源:ITBEAR编辑:快讯团队 IP:北京 发表评论无障碍通道

近期,一项名为Fast-dLLM的突破性技术横空出世,由英伟达携手香港大学及麻省理工学院的研究团队共同研发,其目标直指提升扩散语言模型在文本生成上的推理效率。与以往的自回归模型相比,扩散语言模型通过逐步“净化”文本噪声的方式产出内容,能够在单次迭代中同时生成多个词汇,从而在理论上实现了更高的效率。然而,实践中开源的扩散语言模型在推理速度上仍难以匹敌自回归模型,主要归因于键值(KV)缓存支持的缺失及并行解码时文本质量的下滑。

KV缓存技术,作为自回归模型加速推理的得力助手,通过存储并复用先前的注意力状态,大幅削减了重复计算的开销,进而加速了文本生成。然而,扩散语言模型因采用双向注意力机制,使得KV缓存的直接应用变得棘手。而Fast-dLLM技术的创新点,在于它将文本生成流程切割成多个包含固定数量词汇的“块”。这一分块策略允许模型在生成某一特定块之前,预先计算并存储其他块的KV缓存,有效规避了重复计算的问题。

尽管KV缓存机制显著提升了推理速度,但在并行解码过程中,文本质量往往会受到影响。这源于扩散模型在解码时对条件独立性的假设,而实际中词汇间可能存在着复杂的相互依赖。针对这一挑战,Fast-dLLM提出了基于置信度的并行解码方案。在解码的每一步中,模型会评估每个词汇的置信度,并仅选择置信度超过预设阈值的词汇进行解码。这一策略在确保高置信度的前提下,安全地推进并行解码,从而保障了生成文本的连贯与准确。

为了验证Fast-dLLM的实际表现,研究团队在NVIDIA A100 80GB GPU上对LLaDA和Dream两款扩散语言模型进行了全面评估,测试场景涵盖了数学推理与代码生成等多个领域。在KV缓存机制的测试中,当块大小设置为32时,模型的吞吐量达到了54.4词汇/秒,准确率维持在78.5%。而在并行解码测试中,采用动态阈值策略的表现优于固定词汇数基线的表现。具体来说,LLaDA模型在GSM8K任务中,仅依靠KV缓存就实现了3.2倍的加速,结合并行解码则进一步提速2.5倍,两者并用时速度提升高达8.1倍;在生成长度为1024的文本时,端到端的加速效果更是惊人,达到了27.6倍。所有测试均显示,Fast-dLLM在显著提升速度的同时,保持了文本生成质量的稳定。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version