ITBear旗下自媒体矩阵:

突破多任务瓶颈:UCL与华为携手打造AI推理的“全能教练”新方案

   时间:2026-02-07 22:17:10 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

伦敦大学学院、华为诺亚方舟实验室与巴塞尔大学等机构组成的联合研究团队,在多任务语言模型训练领域取得重要进展。其提出的MT-GRPO训练框架通过动态平衡不同任务的学习强度,有效解决了传统方法中"强者恒强、弱者恒弱"的失衡问题。这项发表于arXiv平台的研究(编号:arXiv:2602.05547v1),为构建更可靠的通用型AI系统提供了新思路。

当前主流训练方法存在显著缺陷:一方面对简单任务和复杂任务采用"一刀切"的资源分配策略,如同给食量不同的孩子分配相同份量的食物;另一方面存在大量无效训练样本,导致模型看似忙碌实则进步缓慢。研究团队形象地将这种现象比作"课堂上的走神学生"——即便获得训练机会,也可能因梯度消失问题无法产生实际学习效果。

新框架的核心创新在于双管齐下的改进机制。其"改进感知权重调整"系统突破了传统仅关注任务绝对表现的局限,通过追踪每个任务的进步轨迹动态调整训练重点。当检测到某个任务虽当前得分较低但进步显著时,系统会保持现有训练强度;若发现任务长期停滞不前,则会立即加大资源投入。这种机制确保模型发展既关注当前水平,更重视成长潜力。

配套开发的"比例保持采样器"则解决了训练效率难题。该组件通过预估每个任务的有效学习率,自动过滤无效训练样本。实验数据显示,在传统方法中,若某任务分配30%训练时间但仅30%样本有效,实际学习时间仅9%;而新采样器可将有效学习时间提升至接近理论值,确保资源投入产生实质性回报。

在数字推理、逻辑谜题和抽象模式识别三类典型任务的测试中,新方法展现出显著优势。三任务场景下,最弱任务的准确率较标准方法提升16-28个百分点,较先进方法DAPO提升6个百分点,同时训练步数减少50%。当任务扩展至九个不同难度级别时,通过调节系统参数λ,可在提升最弱任务表现与维持整体性能间实现灵活平衡。

技术实现层面,研究团队将多任务训练转化为约束优化问题,通过数学推导转化为最大最小优化模型。系统采用softmax函数确保任务权重符合概率分布,配合梯度下降算法实现权重动态更新。这种设计既保证了理论严谨性,又确保了工程实现的稳定性。

消融实验证实,改进感知权重调整和比例保持采样器构成系统成功的两大支柱。单独移除任一组件都会导致性能显著下降,验证了理论分析的正确性。研究团队特别指出,当前实验基于30亿参数模型,更大规模模型的适配性有待进一步验证。

这项突破对AI应用产生深远影响。在消费端,未来的AI助手将摆脱"偏科"局限,能够在数学计算、逻辑推理、模式识别等多领域提供均衡可靠的服务。产业界则获得重要技术工具,通过提升模型全面性增强市场竞争力,加速用户信任建立和应用场景拓展。

研究团队将训练过程类比为教练培养运动员:新方法不仅关注运动员的当前成绩,更重视其成长轨迹和潜力挖掘。这种训练哲学推动AI发展从追求单项指标突破转向追求整体能力均衡,为构建真正智能的系统开辟新路径。技术细节详见arXiv平台完整论文。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version