苹果公司与俄亥俄州立大学的研究团队共同发布了一项突破性成果——一种名为“少步离散流匹配”(FS-DFM)的新型语言模型。该模型通过创新设计,在长文本生成领域实现了效率与质量的双重提升,仅需8轮迭代即可达到传统模型上千轮迭代的效果,生成速度较同类模型提升最高达128倍。
作为扩散模型的变体,FS-DFM采用三阶段策略优化生成流程。第一阶段通过动态训练使模型适应不同迭代次数,增强灵活性;第二阶段引入“教师”模型作为引导,确保每次更新精准无误;第三阶段优化迭代机制,大幅减少生成所需步骤。这种设计既保证了生成质量,又显著提升了效率。
在性能对比实验中,FS-DFM以1.7亿至17亿的参数量,与70亿参数的Dream模型和80亿参数的LLaDA模型展开较量。结果显示,FS-DFM在困惑度和熵两项核心指标上均表现突出,生成的文本不仅准确度更高,且稳定性更强。这一成果表明,通过算法优化,小参数量模型同样能实现高性能输出。
研究团队指出,FS-DFM的核心优势在于其“少步高效”的特性。传统模型需通过大量迭代逐步优化文本,而FS-DFM通过离散流匹配技术,在极少的迭代次数内即可完成高质量生成。这种技术不仅降低了计算成本,还为实时文本生成应用提供了可能,例如动态对话系统或快速内容创作工具。