麻省理工学院携手英伟达、苏黎世联邦理工学院等机构,共同研发出一种名为“驯服长尾”(TLT)的创新技术,该技术可显著提升推理大语言模型(LLM)的训练效率,为人工智能领域带来突破性进展。
在强化学习训练过程中,推理大模型虽擅长通过分步拆解解决复杂问题,但算力与能耗消耗巨大。研究团队发现,训练过程中生成多个备选答案的“推演”阶段耗时最长,占比高达85%。由于不同处理器处理任务的速度存在差异,部分处理器完成短任务后被迫闲置,等待其他处理器完成长文本任务,导致整体训练效率严重受限。
为突破这一瓶颈,研究团队提出“驯服长尾”自适应解决方案。该方案的核心是引入“投机解码”技术,通过训练一个较小的“草稿模型”快速预测大模型的未来输出,再由大模型批量验证这些预测结果。这种并行处理方式避免了逐个顺序生成输出的传统模式,大幅加快了训练进程。
传统投机解码技术中,草稿模型通常仅训练一次且保持静态。然而在强化学习场景下,主模型需经历数千次更新,静态草稿模型很快会与主模型脱节,导致预测失效。针对这一问题,TLT系统创新性地设计了“自适应草稿训练器”:当部分处理器完成短查询任务后,系统立即调度这些闲置资源实时更新草稿模型,确保其始终与主模型保持同步。
与此同时,“自适应推演引擎”会根据当前工作负载特征动态调整解码策略。这一机制既保证了草稿模型与目标大模型的高度一致性,又避免了额外算力开销,实现了效率与成本的双重优化。
基于真实数据集的测试显示,TLT技术在完全不损失模型准确率的前提下,将多个推理大语言模型的训练速度提升了70%至210%。这一成果意味着,在相同时间内可完成更多轮次训练,或以更短时间达到同等训练效果。
值得注意的是,训练过程中生成的轻量级草稿模型可作为独立副产品直接应用于后续部署。这种“训练即部署”的特性进一步拓展了技术的应用价值,为降低AI开发成本提供了新思路。目前,研究团队正探索将该技术整合至更多训练与推理框架中,以推动人工智能技术的规模化应用与可持续发展。











