ITBear旗下自媒体矩阵:

特拉维夫大学新突破:AI训练“精准瘦身”,高效学习关键知识

   时间:2026-02-05 00:31:34 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在人工智能技术快速迭代的当下,大语言模型虽展现出强大的知识处理能力,但其庞大的体积与高昂的训练成本始终是制约发展的瓶颈。特拉维夫大学布拉瓦特尼克计算机科学与人工智能学院的研究团队近日提出突破性解决方案,通过创新性的知识蒸馏技术,在保持模型性能的同时显著降低资源消耗,为AI训练开辟了高效新路径。

传统知识蒸馏方法如同“填鸭式教育”,要求小型学生模型全面模仿大型教师模型的所有输出。这种“全盘接收”的策略导致训练效率低下,尤其在处理长文本时,学生模型需在每个位置分配计算资源,如同要求新手厨师同时掌握所有烹饪技巧。研究团队发现,AI模型在不同位置的预测难度存在显著差异,仅20%的关键位置贡献了80%的学习价值,这为优化训练策略提供了突破口。

研究团队提出的SE-KD(学生熵引导知识蒸馏)方法,引入信息论中的“熵”概念作为学习信号。当学生模型对某个位置的预测熵值较高时,表明其对该位置的判断存在不确定性,这正是需要教师模型重点指导的时刻。该方法通过动态识别这些高熵位置,构建起“按需学习”机制,使训练过程从被动接受转变为主动探索。实验数据显示,SE-KD在保持64.8%准确率的同时,将困惑度指标从7.3降至6.9,证明其能更精准地捕捉语言规律。

在三维选择策略SE-KD3X的拓展应用中,研究团队实现了训练效率的质的飞跃。该方法通过位置选择、类别选择和样本选择的协同优化,构建起立体化训练框架:位置选择聚焦高熵区域,类别选择仅关注概率排名前5%的候选词汇,样本选择则优先处理平均熵值最高的训练数据。这种多维筛选机制使80M代币训练的总时间减少70%,内存占用降低28.1%,存储需求更是压缩至传统方法的2%。特别在在线策略蒸馏场景中,结合样本选择的SE-KD方法将模型指令跟随能力提升至21.4%,超越传统方法的20.5%。

技术实现层面,研究团队开发了两项关键优化:选择性语言模型头部通过仅在被选位置计算完整概率分布,避免无效计算;分块熵计算将大型张量分解为独立处理单元,有效防止内存溢出。这些创新使模型在处理长序列时,既能保持预测精度,又将教师模型缓存需求从10000TB压缩至3.84TB,为移动端部署大型语言模型提供了可能。

实验验证覆盖多个基准测试集,包括常识推理(HellaSwag)、物理直觉(PIQA)和阅读理解(Arc-E)等任务。在通用知识蒸馏场景中,使用Qwen3-8B作为教师模型、Qwen3-1.7B作为学生模型的组合,SE-KD方法在8000万代币训练中展现出显著优势。值得注意的是,在数学推理任务(GSM8K)中,传统方法仍保持领先,这提示不同任务可能需要定制化优化策略。研究团队特别强调,样本选择策略在在线学习场景中表现突出,其71.2%的准确率超越传统方法的70.6%,证明动态调整训练重点的有效性。

这项研究对AI技术落地具有重要启示。在移动设备领域,高效训练方法可使语音助手、图像识别等功能在本地设备流畅运行,减少对云端计算的依赖。教育科技行业可借鉴“按需学习”理念,开发能自动识别学生知识盲点的智能辅导系统。对于资源有限的中小企业,70%的训练成本降低和80%的存储需求缩减,意味着定制化AI模型开发不再是大公司的专利。环境效益同样显著,训练效率的提升直接减少电力消耗,符合“绿色AI”的发展趋势。

研究团队指出,当前成果仅是阶段性突破,未来工作将探索特征层面的选择性学习,并研究如何将该方法与联邦学习、持续学习等前沿技术结合。在数学推理等特定任务中表现出的性能差异,也提示需要开发任务自适应的选择策略。随着技术不断完善,这种“精准教学”模式有望重塑AI训练范式,推动智能技术向更高效、更普惠的方向发展。对技术细节感兴趣的读者,可通过arXiv编号2602.01395v1查阅完整论文。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version