快手GoLongRL开源：23K样本9大任务，突破长上下文RL瓶颈

时间：2026-06-21 21:33:34 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

快手科技语言大模型团队联合中国科学院大学推出全新开源方案GoLongRL，针对长上下文强化学习提出系统性解决方案。该方案包含23K样本的RLVR数据集、完整训练代码及创新算法TMN-Reweight，在4B和30B规模模型上均取得突破性进展，其中30B模型在综合评测中超越DeepSeek-R1、Qwen3-235B等旗舰模型。

传统长上下文强化学习存在两大核心缺陷：训练数据高度同质化，80%以上任务聚焦"复杂文本检索"场景；奖励机制过度简化，仅采用精确匹配等单一指标，忽视排序、摘要等能力的专项监督。这种设计导致模型难以形成真正的跨段落理解能力，在复杂任务中表现受限。

研究团队构建数据集时遵循三大原则：能力导向、语义对齐、真实优先。通过LongBench Pro能力分类体系定义9类核心任务，覆盖从基础检索到多文档推理的全维度能力。其中T1-T4构成训练主干（占比超90%），T6-T9虽样本量不足4%，但完整保留各任务原生奖励形式。针对合成数据的结构性缺陷，研究团队优先采用书籍、论文等真实文档，仅在标注稀缺领域进行问答对合成。

数据集构建采用四阶段流水线：首先按任务类型收集开源数据集与无标注文档，涵盖法律、财务、文学等12个领域；随后进行语义过滤与任务分配，对话记忆类仅保留超50轮、30K Token的样本；样本构造阶段对开源数据做兼容性处理，合成数据则根据文档长度选择DeepSeek-V3.2或Gemini-2.5-Pro生成，并经两阶段质量过滤；最后通过13-gram重叠检测防止数据污染，建立动态优化机制持续迭代。

针对多任务奖励尺度差异问题，创新算法TMN-Reweight将优化过程解耦为尺度归一化与难度校正两个独立模块。该算法在GRPO框架基础上引入动态权重调整机制，使不同数值范围的奖励函数能在统一尺度下协同优化。实验显示，4B模型仅使用数据优化就比QwenLong-L1.5提升6.1分，叠加算法优化后进一步增至63.0分；30B模型则以69.8分超越多个百亿参数模型。

评测表明，GoLongRL训练的模型展现出显著迁移能力。在从未训练过的Agentic Memory任务中，4B模型记忆摘要能力提升9.7分，30B模型提升4.5分；对话记忆任务两个规模均提升13.6分，30B模型得分超越QwenLong-L1.5-30B。长度泛化测试显示，160K训练上下文的模型在512K-1M序列长度上仍能保持性能提升，其中30B模型在CorpusQA 1M任务中提升2.74分。

该研究完整开源数据集、训练代码及评测基准，提供从数据构造到模型优化的全流程解决方案。研究团队特别强调，通过扩展能力维度与匹配语义奖励，中小规模模型也能达到旗舰级长上下文处理性能，这为资源有限的研究机构提供了新的技术路径。相关代码与论文已在HuggingFace及GitHub平台公开，供全球研究者验证与改进。

小米旗下“寻天”增程SUV谍照曝光，定位高端新能源市场。采用子品牌“SKYNOMAD”标识体系，已完成多项商标注册，旨在实现高端市场精准突破。昆仑20：标准五座。“寻天”系列增程式SUV计划于2025年前后上…

小米汽车旗下“寻天”系列增程式SUV测试车谍照曝光，该系列启用独立标识“SKYNOMAD”，旨在进军中高端新能源市场。该车型定位30-40万元区间，预计2025年四季度正式亮相，承载小米高端化战略。系列车型有…

其中七座版本通过模块化设计具备房车化潜力，可通过座椅放倒与空间重组，将车辆转化为集住宿、办公、娱乐于一体的移动生活空间。据专利文件显示，小米自2023年起已布局多项相关技术，涵盖车载电力系统集成、轻量化材料应…

小米“寻天”增程SUV谍照首曝创新设计与产品矩阵核心卖点：车顶帐篷，坡面结构，集成透气蚊帐，电动液压一键展开，车载电池供电，打造“汽车Loft”移动生活概念。昆仑20：标准五座。市场影响与上市展望行业分析认为…

小米旗下“寻天”增程SUV测试谍照流出，该系列启用独立标识“SKYNOMAD”，预示小米汽车将进军中高端新能源市场。昆仑30：旗舰七座，主打户外功能。小米自2023年启动“寻天”及“SKYNOMAD”商标注册…

产品核心创新：移动“汽车Loft”技术支撑：增程动力与移动能源站小米自2023年已布局车载电力系统集成等相关专利。市场布局：对标理想，构建“SKYNOMAD”生态小米为“寻天”系列打造独立“SKYNOMAD”…

IT之家注意到，主持人还问起了雷军开过的最“咸”的玩笑是什么，雷军回忆起了当年与董明珠的“赌约”。延伸阅读雷军与董明珠的“10亿赌约”始于 2013 年 12 月 12 日的央视“中国经济年度人物”…

问AI· 雷军如何解读流量时代的热搜现象？ 6月21日消息，在北京国际图书博览会举办的《文心与匠心》跨界对话活动上，小米创办人、董事长兼 CEO雷军与作家刘震云同台对谈，席间首次公开回应近日 “武汉街边蹲坐…

“就这么一件简单的事情，居然上了好几天热搜，我也觉得匪夷所思。雷军6月21日在对谈中表示，攻击者有些并没有立场，他们只是为了流量而已。甚至还有很多是水军公司，也是赚流量的钱，“大家看到这些报道的时候，笑一笑…

IT之家 6 月 21 日消息，北京国际图书博览会今日举办了《文心与匠心》跨界对话，特邀主持张蕾，嘉宾企业家雷军（小米创办人、董事长兼CEO）、作家刘震云同台交流。在对谈中，三人谈起了雷军近日在武汉街边蹲…

在近期的第三十二届北京国际图书博览会的“BIBF大使会客厅”上，小米集团的创始人雷军分享了他在创业路上的心得与体会。雷军提到，无论是手机行业还是汽车制造，他始终坚持一个原则：对行业的热爱与深入理解是成功的关键…

小米集团的创始人雷军作为特邀嘉宾，分享了他跨越三十年的创业历程以及对新能源汽车行业的独到见解。雷军在活动中强调，真正理解并热爱一个行业，是在该领域取得成功的关键。他的故事不仅是创业者的奋斗历程，更是对行业热爱…

在我近期的一次出国旅行中，翻译机的拍照翻译功能让我轻松应对了当地的菜单和路标，甚至在与当地人交流时也能流利沟通，极大地丰富了我的旅行体验。翻译精度：与许多同类产品相比，科大讯飞的翻译机在语境理解和行业术语…

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.