ITBear旗下自媒体矩阵:

五所高校联合攻克AI持续学习难题:最优传输理论助力对抗遗忘

   时间:2026-04-27 22:18:31 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

人工智能系统在持续学习过程中常面临一个关键难题:新知识的获取往往以遗忘旧知识为代价。这种被称为“灾难性遗忘”的现象,在自动驾驶、服务机器人等需要实时适应环境变化的领域尤为突出。由鲁特格斯大学、塔夫茨大学等五所高校联合研发的OTC框架,通过引入最优传输理论,为解决这一难题提供了创新方案。该研究成果已以预印本形式发布,编号为arXiv:2211.16780。

传统神经网络在学习新数据时,容易覆盖原有知识结构,就像用新内容反复覆盖磁带导致旧记录消失。研究团队将这种极端场景定义为“在线类增量学习”,要求模型在仅能观察小批量数据且无法回顾历史任务目录的条件下,保持对所有学过内容的准确判断。这种设定对模型记忆能力提出严苛挑战,现有解决方案多采用单一原型点代表整个类别,但无法捕捉数据内部的多模态特征。

以手写数字识别为例,数字“1”的书写样式可能呈现竖直、倾斜、带撇等多种形态。传统方法用单个质心代表该类别时,这些变体样本容易被错误归类。研究团队提出的MMOT框架突破性地将每个类别建模为多个高斯分量的混合模型,每个分量包含均值、方差和权重参数,能够动态描述数据分布的不同聚集区域。这种设计如同用多个气泡覆盖城市不同区域,而非仅用中心点标记整座城市。

该框架的核心创新在于引入最优传输理论中的Wasserstein距离作为优化目标。相较于传统EM算法依赖的KL散度,这种度量方式具有两大优势:其一,即使两个分布几乎不重叠,仍能提供有效的梯度信号;其二,支持单次梯度更新而非多轮迭代,显著提升在线学习效率。研究团队通过重参数化技巧和Gumbel-Softmax近似,实现了混合模型参数的端到端优化,使质心位置能够随数据分布变化自动调整。

为增强模型抗遗忘能力,研究团队设计了动态保持策略。该策略通过对比学习机制,鼓励样本特征向所属类别的多个质心靠近,同时远离其他类别特征。这种多磁力线吸引方式,在类别边界区域形成更精确的决策边界。实验显示,经过动态保持训练的模型,同类样本在特征空间中的聚集度提升37%,不同类别间距扩大29%。

在样本回放环节,MMOT框架利用质心信息优化记忆缓冲区管理。系统为每个质心选择最近邻样本存入缓冲区,确保存储数据覆盖各类别的不同子区域。当缓冲区满时,采用随机替换策略更新样本。这种针对性采样方式使有限存储空间利用率提升42%,在CIFAR-10数据集上,仅需存储64个样本即可维持89%的分类准确率。

推断阶段采用马氏距离替代传统欧氏距离进行分类决策。该方法通过考虑数据分布的协方差结构,对边缘样本的判断准确率提升21%。在Tiny-ImageNet数据集的100个连续任务测试中,OTC框架最终准确率达68.3%,较次优方法提高13个百分点,且在内存受限条件下优势更为显著。t-SNE可视化显示,其特征空间呈现清晰的簇状结构,同类样本聚集度较单原型方法提升55%。

消融实验证实了设计选择的合理性。当质心数量从1增至4时,CIFAR-10数据集准确率稳步提升,但超过4个后出现性能下降,揭示质心数量与内存容量的匹配关系。基于质心的样本选择策略较随机选择提升2.3个百分点准确率,证明其能有效维护数据多样性。值得注意的是,该框架在离线学习场景中仍保持优势,在CIFAR-100数据集上超越典型离线方法6.1个百分点。

计算效率分析显示,MMOT框架的时间复杂度较传统EM算法降低68%,内存消耗减少41%。这得益于其单次梯度更新机制,避免了维护责任矩阵的高计算开销。在自动驾驶模拟测试中,该框架使车辆在连续遇到200种新路况时的决策准确率维持在92%,较基线方法提高19个百分点,且推理延迟仅增加8毫秒。

这项研究通过融合最优传输理论与混合模型,构建了适应动态数据环境的记忆管理系统。其创新点不仅在于技术层面的突破,更在于为持续学习领域提供了新的方法论框架。随着边缘计算设备的普及,这种高效在线学习方案有望在工业检测、医疗诊断等领域产生广泛应用。研究团队已公开代码实现,供学术界和产业界验证优化。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version