ITBear旗下自媒体矩阵:

快手GoLongRL开源:23K样本9大任务,突破长上下文RL瓶颈

   时间:2026-06-21 21:33:34 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

快手科技语言大模型团队联合中国科学院大学推出全新开源方案GoLongRL,针对长上下文强化学习提出系统性解决方案。该方案包含23K样本的RLVR数据集、完整训练代码及创新算法TMN-Reweight,在4B和30B规模模型上均取得突破性进展,其中30B模型在综合评测中超越DeepSeek-R1、Qwen3-235B等旗舰模型。

传统长上下文强化学习存在两大核心缺陷:训练数据高度同质化,80%以上任务聚焦"复杂文本检索"场景;奖励机制过度简化,仅采用精确匹配等单一指标,忽视排序、摘要等能力的专项监督。这种设计导致模型难以形成真正的跨段落理解能力,在复杂任务中表现受限。

研究团队构建数据集时遵循三大原则:能力导向、语义对齐、真实优先。通过LongBench Pro能力分类体系定义9类核心任务,覆盖从基础检索到多文档推理的全维度能力。其中T1-T4构成训练主干(占比超90%),T6-T9虽样本量不足4%,但完整保留各任务原生奖励形式。针对合成数据的结构性缺陷,研究团队优先采用书籍、论文等真实文档,仅在标注稀缺领域进行问答对合成。

数据集构建采用四阶段流水线:首先按任务类型收集开源数据集与无标注文档,涵盖法律、财务、文学等12个领域;随后进行语义过滤与任务分配,对话记忆类仅保留超50轮、30K Token的样本;样本构造阶段对开源数据做兼容性处理,合成数据则根据文档长度选择DeepSeek-V3.2或Gemini-2.5-Pro生成,并经两阶段质量过滤;最后通过13-gram重叠检测防止数据污染,建立动态优化机制持续迭代。

针对多任务奖励尺度差异问题,创新算法TMN-Reweight将优化过程解耦为尺度归一化与难度校正两个独立模块。该算法在GRPO框架基础上引入动态权重调整机制,使不同数值范围的奖励函数能在统一尺度下协同优化。实验显示,4B模型仅使用数据优化就比QwenLong-L1.5提升6.1分,叠加算法优化后进一步增至63.0分;30B模型则以69.8分超越多个百亿参数模型。

评测表明,GoLongRL训练的模型展现出显著迁移能力。在从未训练过的Agentic Memory任务中,4B模型记忆摘要能力提升9.7分,30B模型提升4.5分;对话记忆任务两个规模均提升13.6分,30B模型得分超越QwenLong-L1.5-30B。长度泛化测试显示,160K训练上下文的模型在512K-1M序列长度上仍能保持性能提升,其中30B模型在CorpusQA 1M任务中提升2.74分。

该研究完整开源数据集、训练代码及评测基准,提供从数据构造到模型优化的全流程解决方案。研究团队特别强调,通过扩展能力维度与匹配语义奖励,中小规模模型也能达到旗舰级长上下文处理性能,这为资源有限的研究机构提供了新的技术路径。相关代码与论文已在HuggingFace及GitHub平台公开,供全球研究者验证与改进。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version