ITBear旗下自媒体矩阵:

Thinking Machines Lab博客发布新成果:在策略蒸馏受Qwen启发,成效显著

   时间:2025-10-28 12:18:49 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

近期,专注于人工智能研究的技术团队Thinking Machines Lab(TML)发布了一篇技术博客,详细阐述了其研发的“在策略蒸馏”训练方法。该方法通过融合强化学习的纠错机制与监督微调的密集反馈,显著提升了小型语言模型在数学推理和个性化助手场景中的表现。

据团队CEO米拉·穆拉蒂介绍,这种技术突破使得仅具备基础能力的轻量级模型,能够通过低成本训练获得特定领域的专业能力。实验数据显示,该方法在数学推理基准测试AIME'24上的表现,超越了传统强化学习所需的计算资源量级,同时避免了离策略训练中常见的“复合错误”问题。

研究团队将训练过程划分为三个阶段:首先通过通用语料库完成模型预训练,使其掌握基础语言能力;继而通过领域文档进行中训练,注入专业知识;最终采用在策略蒸馏进行后训练,确保模型在特定任务中达到专家级表现。相较于传统方法,该方案通过逐token的密集反馈机制,使模型能够精准修正推理路径中的每个步骤。

在数学推理实验中,团队以Qwen3-8B模型为基础,通过150个训练步骤即达成70%的基准测试准确率。相较之下,传统强化学习方法需要17,920个GPU小时才能达到相近水平。这种效率提升得益于蒸馏过程中使用的反向KL散度损失函数,该函数能够精确量化学生模型与教师模型在每个生成token上的分布差异。

技术实现层面,研究团队构建了包含教师模型评估的迭代训练框架。在每轮训练中,学生模型生成推理轨迹后,由高性能教师模型对每个token进行质量评分。通过计算反向KL散度,系统能够精准定位错误根源,而非仅反馈最终结果的正误。这种机制使得模型在处理复杂问题时,能够有效区分运算顺序错误与基础算术失误。

个性化助手开发实验进一步验证了该技术的适应性。当在内部文档数据上进行中训练后,模型的专业知识得分显著提升,但指令遵循能力出现下降。通过引入在策略蒸馏阶段,以早期版本模型作为教师进行行为矫正,研究团队成功恢复了模型的指令响应能力,同时保持了专业知识水平。这种持续学习能力为模型部署后的动态更新提供了可行方案。

技术对比显示,在策略蒸馏在数据利用效率方面具有显著优势。实验表明,单个训练提示通过多次采样生成的轨迹,能够提供比传统强化学习更丰富的监督信号。这种特性使得开发者在数据采集受限的场景下,依然能够完成有效模型训练。

研究团队特别指出,该成果的实现得益于对Qwen3系列模型的深度研究。在技术实现过程中,Qwen3团队的相关研究提供了关键启发,其公开的模型架构与训练数据为实验验证创造了条件。据统计,博客原文中“Qwen”关键词出现频次达38次,凸显了开源模型对技术创新的重要推动作用。

目前,Thinking Machines Lab已通过Tinker训练平台完整开源了技术实现方案。该方案包含从数据准备到模型部署的全流程指导,支持开发者复现数学推理与个性化助手等典型应用场景。研究团队强调,这种训练范式不仅适用于学术研究,更为企业级AI应用开发提供了低成本、高效率的解决方案。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version