麻省理工学院计算机科学与人工智能实验室的一项新研究,为人工智能训练领域带来了突破性发现。研究者甘雨露和菲利普·伊索拉带领团队发现,经过充分预训练的大型AI模型内部,竟潜藏着大量具备专业能力的“任务专家”,且通过随机调整参数即可激活这些能力,甚至在某些场景下效果优于传统训练方法。
传统AI训练通常需要针对特定任务设计算法,通过大量数据迭代优化模型参数。而MIT团队的研究表明,当模型规模足够大且预训练充分时,参数空间会形成类似“丛林”的结构,其中分布着各类“专家”——有的擅长数学推理,有的精通编程,有的善于创意写作。这种“神经丛林”现象颠覆了人们对AI训练的认知:无需从零培养新能力,只需找到并激活已存在的专家即可。
研究团队通过实验验证了这一发现。他们以语言模型为例,随机生成数千个参数变化,测试其在数学、编程、写作等任务上的表现。结果显示,在5亿参数的小模型中,仅约5%的随机变化能提升性能;而在320亿参数的大模型中,这一比例跃升至60%以上。这意味着,大模型的参数空间中“专家”密度更高,随机搜索找到有效解的概率显著增加。
进一步分析发现,这些“专家”不仅数量多,且专业化程度高。例如,在数学任务中表现优异的参数变化,在编程任务上可能效果平平,表明模型内部形成了真正的分工。研究团队用“光谱差异度”指标衡量专业化程度,发现随着模型规模扩大,专家间的差异化愈发明显,类似人类社会中职业分工的细化。
基于这一发现,团队开发了名为RandOpt(随机优化)的训练算法。该算法分为两步:首先随机生成大量参数变化,筛选出在目标任务上表现最佳的“专家”;然后让这些专家组成团队,通过集体投票解决问题。实验表明,RandOpt在数学推理、编程、化学反应预测等任务上,效果可媲美甚至超越传统方法,且训练时间大幅缩短——无论任务复杂度如何,均只需一轮并行计算。
RandOpt的成功源于预训练模型的特殊结构。研究团队将参数空间比作地形图,预训练过程会根据不同任务数据“改造地形”,形成适合各类任务的“高原区域”。大模型的“高原”更宽广,随机搜索碰到有效区域的概率更高。同一任务可能存在多种解决策略,对应参数空间中的不同区域,这种多样性解释了专家团队为何优于单个专家。
实验验证了理论的普适性。团队在5亿至320亿参数的模型上测试RandOpt,覆盖数学、编程、写作、化学等领域。结果显示,随着模型规模扩大,RandOpt的效果提升显著。例如,在70亿参数的模型中,RandOpt将数学推理准确率从10%提升至85%。在视觉语言模型的图像问答任务中,RandOpt也将准确率提升了12.4%,表明“神经丛林”现象不仅限于文本模型。
深入分析发现,性能提升源于多重因素。以数学任务为例,约12.3%的改进来自推理能力提升,19.0%源于输出格式修正。这表明“专家丛林”包含不同类型:推理专家擅长解决复杂问题,格式专家则能优化输出规范。在图像生成任务中,团队还发现了“色彩专家”——不同参数调整会使图像倾向不同色调,进一步证明了专家的多样性。
这一发现对AI训练实践具有重要启示。首先,它简化了训练流程:传统方法需多轮迭代调整超参数,而RandOpt完全并行,可在3.2分钟内完成200个GPU集群的训练。其次,它改变了对预训练模型的理解——预训练不仅是起点,更是“专家生态系统”的载体,后续任务只需发现并激活已有专家。专家团队方法提高了可解释性:通过分析专家特长,可理解模型在何种情况下被激活,增强系统可信度。
尽管RandOpt优势显著,但其应用仍受限于预训练质量。在预训练不充分的模型上,专家丛林现象不明显,随机搜索效果下降。专家团队在推理时需更多计算资源,虽可通过知识蒸馏压缩模型,但增加了系统复杂性。研究团队指出,未来需探索更智能的专家发现方法,以及优化专家协作策略,以进一步提升效率。
A:指大型预训练AI模型的参数空间中,隐藏着大量具备专业能力的“任务专家”。这些专家各有所长,随着模型规模扩大,其密度和专业化程度增加,形成类似丛林的结构,随机搜索即可找到有效解。
A:该算法分两步:首先随机生成数千个参数变化,筛选目标任务上表现最佳的“专家”;然后让这些专家组成团队,通过集体投票解决问题。其优势在于完全并行,无需复杂迭代,训练时间恒定。
A:目前不能完全替代。其效果高度依赖高质量预训练,更适用于在预训练模型基础上快速适应新任务。对于从零训练或小模型,传统方法仍是必要选择。











