ITBear旗下自媒体矩阵:

Thinking Machines新研究:LoRA满足两条件,学习率10倍可媲美全参微调

   时间:2025-10-01 01:06:59 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

近期,机器学习领域关于参数高效微调(PEFT)的研究取得新进展。Thinking Machines团队发布的第三篇论文《LoRA Without Regret》引发关注,该研究聚焦于LoRA(低秩适配)与全参数微调(FullFT)的性能对比,为模型定制化训练提供了新思路。

随着大模型参数量突破万亿级,预训练数据量激增至数十万亿Token,基础模型的性能提升高度依赖参数规模。然而,在后训练阶段,全参数微调的效率问题日益凸显,参数高效微调技术因此成为研究热点。LoRA作为典型方法,通过在原始权重矩阵W上叠加低秩修正项(W′=W+γBA),以远少于W的参数实现模型适配。

研究团队通过监督微调与强化学习实验发现,LoRA的性能表现与数据集规模、训练批量大小及模型层应用方式密切相关。在小到中等规模的指令微调和推理数据集中,LoRA可达到与FullFT相当的效果;但当数据集超出LoRA容量时,其性能会明显下降。LoRA对大批量训练的容忍度低于FullFT,性能差距随批量增大而扩大,且这一现象与秩无关。

在模型层应用方面,研究揭示了LoRA效果的关键影响因素。将LoRA应用于所有权重矩阵(尤其是MLP和MoE层)时,模型表现显著优于仅应用于注意力矩阵。实验数据显示,rank=256的仅注意力LoRA表现不如rank=128的仅MLP LoRA,尽管两者参数量相近。这一发现挑战了“注意力机制优先”的传统认知,为LoRA的优化方向提供了新启示。

强化学习场景下的实验进一步验证了LoRA的潜力。使用策略梯度算法时,即使rank低至1,LoRA仍能完全匹配FullFT的学习效果。在MATH和GSM数据集上,基于Llama-3.1-8B模型的实验显示,LoRA具有更宽的有效学习率范围,并能达到与FullFT相同的峰值性能。大规模实验(如DeepMath数据集)也证实,最优学习率下,不同秩的LoRA与FullFT训练进展几乎一致。

超参数选择是LoRA应用的另一关键挑战。研究提出了一种参数化方式,其中r为LoRA秩,α为缩放因子,A、B为权重矩阵。实验表明,LoRA的最优学习率通常是FullFT的10倍,这一规律在监督学习和强化学习中均得到验证。通过拟合14个Llama和Qwen模型的扫描结果,研究团队还提出了基于模型隐层维度的最优学习率预测函数。

进一步分析发现,LoRA的初始化方式会导致有效学习率随训练进程变化。训练初期,B矩阵初始化为零,此时A的更新对网络输出影响微弱;随着B规模逐渐接近A,有效学习率逐步提升。短期训练(约100步内)的最优学习率约为FullFT的15倍,长期训练后收敛至10倍。这一动态特性为LoRA的超参数调优提供了理论依据。

研究总结了LoRA与FullFT性能相近的两个核心条件:一是将LoRA应用于网络所有层(尤其是MLP/MoE层),二是确保可训练参数数量超过需学习的信息量。满足这两点时,LoRA的训练动态与FullFT高度相似,直至触及容量上限。该成果不仅推动了LoRA在定制化场景中的广泛应用,也为机器学习基础问题的研究提供了新视角。

相关论文及实验数据已公开,研究团队通过博客(https://thinkingmachines.ai/blog/lora/)和社交媒体(https://x.com/thinkymachines/status/1972708674100765006)分享了详细成果,为学术界和工业界提供了重要参考。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version