在人工智能领域,大模型的算力需求与训练成本一直是制约行业发展的关键因素。然而,由前OpenAI首席技术官Mira Murati主导的Thinking Machines Lab团队,凭借一项名为“在线策略蒸馏”的创新技术,为行业带来了颠覆性变革。该技术通过优化训练流程,使小规模模型在性能上逼近大型模型,同时大幅降低计算资源消耗,为中小企业和个人开发者打开了高性能AI的普及之门。
最新实验数据显示,一个仅有80亿参数的小模型,在经过“在线策略蒸馏”方法训练后,其性能达到了320亿参数大模型的70%。更令人瞩目的是,这一成果的训练成本较传统方法降低了90%,效率提升了50至100倍。以数学推理任务AIME'24为例,传统强化学习方法需耗费17,920个GPU小时才能达到68%的准确率,而采用该技术的Qwen3-8B模型仅用150步训练便实现了70%的准确率,计算开销几乎可以忽略不计。
“在线策略蒸馏”的核心优势在于其“每token密集反馈”机制。传统强化学习仅在任务完成后给予模型稀疏奖励,而该技术通过教师模型对学生生成的每个token进行实时评分,提供连续且精准的指导信号。这种机制不仅加速了模型的收敛速度,还有效避免了长序列训练中的“策略漂移”问题,使小模型在有限资源下也能稳定输出高质量结果。
该技术还成功解决了AI模型在学习新知识时的“灾难性遗忘”难题。实验表明,某模型在微调后指令遵循能力从85%骤降至45%,而通过“在线策略蒸馏”的实时轨迹采样与教师校正,模型在保留41%新知识的同时,将原有能力迅速恢复至83%,远超传统微调或离线蒸馏方法。这一特性使其特别适用于企业场景,模型可动态学习业务新规、产品文档,而不丢失基础对话、工具调用等核心能力,实现真正的“持续进化”。
从技术实现来看,“在线策略蒸馏”的架构极为简洁,仅需四步闭环:首先部署教师模型(如320亿参数大模型)作为监督源;其次由学生模型生成响应轨迹;接着教师模型计算每个token的对数概率;最后以反向KL散度为损失函数,优化学生模型的参数。这一过程无需复杂的基础设施,兼容现有蒸馏框架,即可实现“低成本高精度”的性能提升。研究指出,该技术可扩展至代码生成、多模态推理等任务,为“教师-学生”协同训练开辟了新路径。
作为OpenAI前首席技术官,Mira Murati将大模型训练的实战经验融入小模型生态构建中。在AI安全与对齐日益重要的背景下,“在线策略蒸馏”不仅提升了训练效率,还通过可控的知识迁移增强了模型行为的可预测性。行业专家认为,该技术将推动开源模型与边缘AI的快速发展——当80亿参数模型能胜任320亿参数模型的任务时,手机、物联网设备乃至本地服务器都将成为高性能AI的载体,智能技术正从“云端垄断”走向“人人可及”。
这场由Murati引领的训练革命,正在改变AI领域的竞争格局。小模型通过技术革新实现“聪明”如大模型,标志着智能技术民主化时代的开启。随着“在线策略蒸馏”技术的普及,高性能AI将不再局限于少数科技巨头,而是成为更多企业和开发者触手可及的工具。














