科技领域迎来一项创新突破,英伟达在最新发布的论文中,详细介绍了一种名为TiDAR的新型人工智能解码方法。该方法巧妙融合了自回归与扩散两种模型机制,旨在利用GPU的闲置资源加速文本生成过程。
自回归模型是一种常见的生成方式,其特点在于AI必须依据前一个字符来推测下一个字符,如同玩接龙游戏般按顺序逐个生成内容。而扩散模型则多应用于AI绘画领域,通过逐步消除噪点的方式生成图像或文本。在TiDAR中,扩散机制被赋予新任务——一次性预测多个可能的词汇,为后续筛选提供更多选项。
传统语言模型通常采用逐个生成Token的方式,这种机制虽然稳定,但计算成本高昂且延迟显著。TiDAR的核心创新在于利用模型推理过程中未被充分利用的GPU“空闲槽位”,通过单步生成多个Token的方式,在不降低生成质量的前提下大幅提升响应速度,同时减少GPU运行时间。
从技术原理来看,TiDAR通过训练单个Transformer模型同时执行两项任务:一是标准的自回归“下一词预测”,二是基于扩散的“并行起草”。这种设计打破了以往依赖独立草稿模型的投机解码模式——后者需先用小模型快速生成草稿,再由大模型修正。TiDAR通过结构化的注意力掩码将输入划分为前缀区、验证区和起草区,实现了在同一模型内完成草稿生成与验证的双重功能。
这种架构不仅允许模型利用扩散头并行生成新Token,还能通过自回归头实时验证草稿的准确性。更关键的是,它解决了早期扩散解码器在部署时面临的KV缓存结构失效问题,确保了模型运行的稳定性。
研究团队基于Qwen系列模型展开测试,在Humaneval和GSM8K等基准测试中,TiDAR的准确率与基准模型持平甚至略有提升。速度测试显示,15亿参数版本的TiDAR模型吞吐量增长4.71倍,80亿参数版本的表现更为突出,吞吐量达到Qwen3-8B基准的5.91倍。这表明该技术能有效利用GPU显存带宽,在无需额外显存搬运的情况下生成更多Token。
尽管实验数据表现优异,但TiDAR仍面临规模扩展的挑战。当前测试仅限于80亿参数以下的中小模型,且未采用定制化的内核级优化,仅使用标准PyTorch环境。随着模型参数量和上下文窗口的扩大,计算密度可能趋于饱和,从而削弱“多Token扩展”的成本优势。研究人员计划在更大规模的模型上进一步验证该技术,以评估其作为云端大规模AI部署替代方案的可行性。











