在人工智能文本生成领域,扩散模型与自回归模型长期形成两大技术流派。自回归模型如同传统写作,严格遵循从左到右的线性生成方式,而扩散模型则突破这一限制,理论上可同时处理全局信息。然而实际应用中,扩散模型常因位置偏差问题导致生成质量不稳定,这一矛盾成为制约技术突破的关键瓶颈。
复旦大学联合研究团队近日在arXiv平台发布突破性成果,通过频域分析揭示了扩散模型隐藏的生成逻辑。研究团队发现,将模型最后一层的隐藏状态进行傅里叶变换后,代码中的控制流关键词(if/else/return)与数学推导中的逻辑连接词(因为/如果)均集中在低频段,而变量名、函数名等具体信息则分布在高频段。这种分布规律在Python代码和数学证明两种场景中均得到验证,形成"逻辑骨架-细节填充"的分层结构。
实验数据显示,该方法在编程任务中使LLaDA1.5-8B模型性能提升20.4%,数学问题解决准确率提高7%,整体得分超越同规模自回归模型Llama 3.1-8B。在小型模型SDAR-1.7B-Chat上,Countdown推理任务性能提升达45.1%,证明该策略对资源受限场景具有特殊价值。可视化分析显示,模型在生成if语句时,会同步生成完整条件判断和冒号,印证了策略对既有语言知识的有效激发。
技术实现包含两大创新机制:翻译过滤评分系统根据当前频段能量密度确定生成优先级,确保关键逻辑词汇优先生成;自适应傅里叶校准器则通过分析模型预测概率方差,动态调节频率指导强度。当模型对生成决策有明确把握时,指导权重自动降低;在模型犹豫时加强引导,形成智能化的生成平衡。
该研究还揭示了不同任务的最优频段窗口差异:编程任务需要较窄窗口聚焦控制流,数学问题则适用较宽窗口处理逻辑链条。这种任务适配性使策略具有广泛适用性,即使在基础随机采样方法上也能带来显著改进。研究团队通过词性频率分布分析进一步验证,连词、介词等构成逻辑框架的功能词确实集中在低频域,而名词等内容词倾向高频分布,与语言学基本规律高度吻合。
这项突破为文本生成技术开辟新路径,其核心价值在于将模型内部隐藏的结构信息转化为可操作的生成指导。相比传统位置感知或外部奖励模型方法,该策略直接利用模型自身学习到的频率特征,既避免人工规则的僵化干预,又解决奖励模型可能引入的新偏差。对于代码生成、数学推理等需要严格逻辑结构的任务,这种结构优先的生成方式展现出独特优势。
研究过程中还发现多个有趣现象:模型在生成循环结构时,会同步生成循环条件和迭代变量;不同编程语言的控制流关键词在频域分布具有相似模式;数学公式中的运算符与变量在频段分布上呈现明确分工。这些发现为进一步优化生成策略提供了新线索,也引发关于频域特征与语义关联的深入思考。












