人工智能领域长期存在两种主流生成技术路线:以ChatGPT为代表的自回归语言模型,通过逐字预测完成文本生成;而以Stable Diffusion为代表的扩散模型,则擅长从随机噪声中逐步“擦除”出清晰图像。然而,当研究者尝试将扩散模型应用于语言生成时,始终面临效果不如传统语言模型的困境。首尔大学数据科学团队最新提出的混合架构DiHAL,通过将扩散模块植入预训练Transformer内部特定层级,成功突破了这一瓶颈。
传统扩散语言模型主要在词嵌入空间或独立潜变量空间操作,这类方法存在根本性缺陷。词嵌入空间的几何结构复杂,微小去噪误差就可能导致语义漂移;独立潜变量空间虽能部分缓解问题,但需要额外编解码器,且压缩过程会损失信息。研究团队发现,预训练Transformer内部已存在多层经过优化的连续表示,这些中间层既保留了丰富的语义信息,又具备更适合扩散操作的几何特性。
为确定最佳植入位置,研究团队构建了包含局部曲率、单调性和有效秩的三维度量体系。局部曲率反映数据点邻域的紧凑程度,曲率越大去噪过程越稳定;单调性衡量全局方向刚性,值越高表示几何结构越稳定;有效秩则表征数据实际分布的维度复杂度。通过标准化这三个指标并计算综合得分,团队在80亿参数规模的Llama和Qwen模型中,均准确识别出靠近输入端的第三层和第二层为最优植入点。
实验数据显示,几何选层策略与实际训练验证结果高度吻合。在Llama模型中,选层得分最高的第三层验证损失为0.331,而深层第27层损失高达0.656;Qwen模型中,最优第二层损失仅0.060,深层第30层损失飙升至276.584。这种差异在30次重复实验中保持稳定,Spearman相关系数达0.91以上,证明几何指标可有效预测扩散桥接难度。
DiHAL架构采用“扩散桥”设计,将选定层以下的Transformer替换为UNet结构的扩散模块,保留上层网络完成最终生成。该模块通过2D空间重排技术适配图像处理架构,训练时结合去噪损失、重建损失、语言建模损失和知识蒸馏损失四重目标。在30万条文本数据的诊断性对比中,DiHAL生成困惑度仅136.02,多样性指标达0.5913,显著优于Diffusion-LM等传统方法。
完整训练后的评估显示,几何选层策略在语言建模质量上接近理论最优值。Llama模型中,几何选层的负对数似然为4.91,困惑度135.64,优于验证损失最低层的165.67;Qwen模型中,几何选层困惑度144.03,与最优层差距不足4%。相比之下,深层植入导致质量断崖式下降,第31层困惑度高达175.91。
这项研究揭示了扩散语言模型性能瓶颈的新视角:除离散-连续转换难题外,植入位置的几何特性同样关键。通过数学工具量化中间层的扩散友好性,团队为混合架构设计提供了可计算的选层标准。尽管当前实现存在推理延迟增加72%-1170%的代价,但其开创的几何分析框架为后续优化指明了方向,包括主动塑造层几何特性、探索多层植入等潜在改进路径。










