在人工智能领域,一项突破性技术正引发广泛关注。清华大学研究团队开发出名为DEER的创新框架,通过重构文本生成流程,成功实现大语言模型推理速度2至5倍的提升,同时保持输出质量完全不变。这项成果已发表于学术预印本平台,为解决AI响应延迟问题提供了全新思路。
传统大语言模型采用自回归生成机制,如同逐字书写的作家,每个字符的生成都需等待前序内容确定。这种串行处理模式在复杂推理任务中会导致显著延迟,尤其在处理长文本时,等待时间呈指数级增长。研究团队通过类比多米诺骨牌效应指出,现有加速方案虽尝试引入辅助模型,但因同样依赖逐字生成机制,反而加剧了错误累积问题。
DEER技术的核心创新在于引入扩散语言模型作为草稿生成器。不同于传统方法,该模型采用并行生成策略,通过"去噪"过程将随机分布的字符碎片重组为完整句子。实验数据显示,这种模式可一次性生成32个词的完整片段,较传统方法8-10词的生成长度实现质的飞跃。研究团队特别强调,由于各字符生成相互独立,有效避免了错误传播的连锁反应。
为确保草稿质量,研究团队设计了双阶段训练体系。首阶段通过随机截断文本并添加标记的方式,训练模型续写能力;次阶段采用指数衰减权重策略,强化草稿与目标模型在关键位置的契合度。这种训练方式使扩散模型既能保持创作自由度,又能精准匹配目标模型的输出特征。
验证机制方面,DEER沿用投机解码框架但进行关键改进。目标模型对草稿实施逐词检验,通过计算接受概率决定保留或重写。得益于扩散模型的抗误差特性,即使处理长文本,后续字符的接受率仍保持高位。数学证明显示,该系统输出的文本分布与直接使用目标模型完全一致,从理论层面确保质量无损。
基准测试数据充分验证技术优势。在代码生成任务中,DEER使Qwen3-30B模型在Humaneval测试集上的处理速度提升5.54倍,超越现有最优方法EAGLE-3的2.41倍。数学推理测试同样表现优异,GSM8K基准上实现2.23倍加速。特别值得注意的是,随着模型规模扩大,DEER的性能优势愈发显著,在30B参数模型上展现出更强适用性。
批量处理场景下的表现同样令人瞩目。面对16个并发请求时,系统吞吐量达到175.66 tokens/秒,较传统方法提升353%。研究团队还发现意外收获:训练后的扩散模型具备可靠的块再生成能力,可基于部分代码片段补全完整模块,这种能力在代码修复和创意写作领域具有潜在应用价值。
技术实现层面,研究团队采用模块化设计降低系统复杂度。扩散模型仅增加470M参数开销,内存访问模式经过优化后更适应现代GPU架构。虽然当前推理框架尚不完全支持扩散模型特性,但随着Fast-dLLM等新技术的成熟,系统性能有望进一步提升。研究团队已公开核心算法原理,为后续开发奠定理论基础。
这项突破不仅体现在速度提升,更开创了模型协作新范式。通过将并行生成与串行验证相结合,DEER证明不同架构的AI模型可形成优势互补。这种设计思路为扩散模型在自然语言处理领域的应用开辟新路径,未来可能催生代码生成、实时对话等场景的革命性应用。随着研究团队承诺开源核心代码,这项技术有望快速渗透至各类AI服务中。











