字节跳动旗下的Seed团队最近公布了一项名为Seed Diffusion Preview的实验性语言模型,这标志着语言模型技术领域的一次重要飞跃。该模型专注于通过一系列代码生成实验,探索离散扩散技术路径能否成为未来语言模型的核心架构。
Seed Diffusion Preview在推理速度方面实现了显著提升,达到了每秒2146个tokens的惊人速度,这比同等规模的自回归模型快了5.4倍。同时,在多个代码生成基准测试中,它的性能与自回归模型不相上下,甚至在某些方面有所超越。
这款模型的推出,主要是为了克服自回归模型在推理速度和全局控制方面的不足。扩散模型在图像和视频合成等连续数据领域已经取得了显著成果,但在自然语言等离散数据领域的应用却面临诸多挑战。其中,最主要的问题是标准扩散过程与离散状态空间的不兼容。
为了应对这些挑战,Seed Diffusion Preview采用了四项创新技术。首先,两阶段课程学习策略,通过掩码扩散训练和编辑扩散训练,增强了模型的局部上下文补全能力和全局代码合理性评估能力。其次,约束顺序扩散技术,通过引入代码的结构化先验知识,帮助模型更好地理解代码中的依赖关系。第三,同策略学习技术,通过优化生成步骤,进一步提升了模型的推理速度。最后,块级并行扩散采样方案,在保证因果顺序的同时,实现了高效的块级推理。
实验数据表明,Seed Diffusion Preview在代码推理速度上的表现极为出色,达到了2146tokens/s,远超同等规模的自回归模型。更重要的是,这种速度的提升并没有牺牲模型的性能。在多个业界基准测试中,它的表现与顶尖的自回归模型相当,甚至在代码编辑等复杂任务上表现得更为出色。这一成果不仅证明了离散扩散模型在推理加速方面的巨大潜力,还展示了它在处理复杂推理任务时的优势。
想要了解更多关于Seed Diffusion Preview的信息,可以访问项目页面:https://seed.bytedance.com/seed_diffusion。同时,你也可以通过以下链接体验该模型:https://studio.seed.ai/exp/seed_diffusion。