谷歌最新研究揭示了大型语言模型训练的新策略,该策略专注于通过一种创新的主动学习筛选流程,大幅度减少微调所需的训练数据量。据实验数据显示,这一方法成功地将数据量削减至原先的万分之一,同时显著提升了模型判断与人类专家的一致性,增幅高达65%。
在广告内容分类、金融数据安全分析等实际应用场景中,对高质量训练数据的需求尤为迫切。然而,筛选出符合标准的数据不仅技术难度高,而且成本也相当可观。谷歌的新方法针对这一挑战,从零样本或少样本的初始模型出发,用户通过具体提示来定义目标内容,例如判断广告是否为“点击诱饵”。初始模型会对广告进行分类,并生成一个庞大的标记数据集。但这一初始数据集通常存在严重的类别不平衡问题,影响了模型的准确识别能力。
为了克服这一难题,研究者对模型标记的内容进行了细致分组,发现部分组之间存在显著重叠,这意味着模型在这些内容上容易判断失误。于是,研究者从这些重叠组中精心挑选样本对,交由专家进行进一步判断。这种做法不仅有效控制了审核成本,还确保了所选样本对具有多样性和代表性,覆盖了多种可能的错误情形。
在模型微调阶段,专家提供的标注被分为两个独立组:一组用于评估模型与人类专家判断的一致性,另一组则直接用于模型的微调。这一过程循环进行,直至模型的表现达到与人类专家相近的水平。谷歌的实验采用了Gemini Nano-1和Nano-2两款模型,并针对两个不同复杂度的任务进行了测试。每个任务都使用了约10万条众包标注数据,尽管这些数据存在严重的不平衡性。
实验结果显示,专家之间的判断高度一致,而众包标签与专家判断的一致性则相对较低。通过应用新方法,一个拥有32.5亿参数的模型在低难度任务上的表现得到了显著提升,所使用的数据量仅为250至450条,与原先的10万条数据相比大大减少,但仍能取得令人满意的效果。这一成果表明,在确保专家标注一致性超过0.8的情况下,大型模型仅需少量高质量数据就能在训练时展现出色性能。
谷歌的这一创新策略为大型语言模型的训练提供了新的视角,证明了在数据稀缺和类别不平衡的情况下,通过精细的主动学习和专家标注,依然能够实现模型性能的大幅提升。