阿里巴巴通义实验室的研究团队近日在人工智能领域取得重大进展,其开发的QwenLong-L1.5模型成功突破超长文本处理的技术瓶颈。这项发表于arXiv平台的研究成果(编号arXiv:2512.12967v1)显示,该模型可处理长度达400万字的文档,相当于同时分析十几部长篇小说,在复杂推理任务中展现出接近人类专家的能力。
传统AI模型在面对长文本时,往往只能进行简单的关键词匹配和信息提取,如同在图书馆中仅能查找特定书名却无法理解内容关联。QwenLong-L1.5通过创新的三阶段技术架构,实现了从信息检索到深度推理的质变。研究团队首先构建了包含1.4万个高质量样本的训练数据集,平均输入长度达3.4万词,最长样本超过11.9万词,为模型提供了充足的推理训练材料。
在训练方法上,研究团队开发了任务平衡采样技术,确保每个训练批次包含不同类型的问题,避免模型出现"偏科"现象。针对长文本训练中的梯度不稳定问题,创新性地采用基于熵值的梯度裁剪技术,有效过滤推理过程中的不确定性信号。通过渐进式训练策略,模型从32K词逐步扩展到120K词的输入长度,如同游泳者从浅水区逐步适应深水环境。
记忆管理架构的突破是该研究的核心创新之一。研究团队设计的记忆代理系统模拟人类阅读行为,将超长文档分解为可管理片段,在处理每个片段时动态更新记忆并制定导航计划。这种递归式记忆更新机制,使模型能够像资深研究者般,在海量信息中建立系统化的知识框架。实验数据显示,该架构在处理1-4百万字任务时,相比传统方法性能提升最高达15.26分。
性能验证环节,QwenLong-L1.5在六个权威基准测试中展现卓越表现。在LongBench-V2多选题测试中,模型在中等长度文本(32K-128K词)上的得分提升达10.23分;MRCR"大海捞针"任务中,准确率提升31.72个百分点;CorpusQA全局推理测试中,92.8K词长度的文档处理得分提高9.69分。特别值得关注的是,模型性能与文本长度呈现正相关关系,证明其在真正长文本场景中的优势。
这项研究带来的意外收获是跨领域能力提升。在数学竞赛AIME25测试中,模型得分从82.81提升至86.46;GPQA-Diamond科学推理测试成绩提高0.9个百分点;LongMemeval对话记忆任务得分激增15.6分。分析显示,长文本训练培养了模型的信息筛选、多步推理和工作记忆管理等基础认知能力,这些能力可迁移至多种任务场景。
技术细节方面,研究团队开发了三种新型推理任务训练范式:深度多跳推理要求模型串联分散线索;语料级数值推理需要跨文档统计分析;通用长文本推理涵盖观点分析、时序推理等复杂任务。为确保数据质量,研究团队设计了双重验证机制,通过移除原始文档和插入干扰信息测试模型的真正推理能力。
该研究的阶段性训练策略揭示了AI能力演化规律。初始阶段使用32K词输入使模型基础能力提升近8分;第二阶段扩展至60K词输入后,MRCR任务得分突破81分;第三阶段120K词训练使CorpusQA得分达79.38分。专门的记忆管理训练阶段虽使全文推理性能短暂下降,但为后续模型融合奠定基础,最终实现两种能力的协同优化。
这项突破为AI应用开辟了新可能。在法律领域,模型可同时分析数千页案卷材料;学术研究中,能自动生成跨领域文献综述;商业场景下,可处理大型项目报告并提取关键决策信息。研究团队公开的技术细节和实现代码,将为开源社区提供完整的长文本处理解决方案,推动整个AI领域向深度理解方向迈进。











