在科学文献检索领域,一项由多所高校联合开展的研究引发了广泛关注。该研究通过系统性实验发现,在处理复杂科学文献查询任务时,传统检索方法展现出超越最新AI技术的显著优势。这一发现挑战了当前对智能检索系统的普遍认知,为相关技术发展提供了新的思考方向。
研究团队构建了名为SAGE的科学文献检索评估框架,包含1200个精心设计的查询样本,覆盖计算机科学、自然科学、医疗健康和人文社科四大领域。每个领域配备5万篇最新论文作为检索语料库,形成总规模达20万篇的专用数据库。查询类型分为精确匹配的短答题和需要综合分析的开放式问题,前者要求找到唯一正确答案,后者则需识别多个相关文献。
实验评估了六个主流深度研究智能体,包括GPT-5系列和开源系统DR Tulu。结果显示,GPT-5在短答题任务中表现最优,精确匹配率达71.69%,但在处理开放式问题时,不同系统呈现差异化表现。值得注意的是,开源系统DR Tulu在精确检索任务中超越了部分闭源系统,显示出开源模型在特定场景下的竞争力。研究还发现,搜索次数与检索质量并不成正比,部分系统通过更精准的查询分解策略实现了更高效率。
在检索器性能对比环节,传统BM25算法在短答题任务中展现出惊人优势,其准确率比基于大语言模型的检索器高出约30个百分点。具体数据显示,BM25在k=10设置下达到81.2%的平均准确率,而先进的AI检索器gte-Qwen2-7B-instruct和ReasonIR分别只有63.0%和49.3%。这种差距源于智能体生成的查询特征——现有系统更倾向于生成关键词组合而非自然语言查询,导致AI检索器的语义理解能力无法充分发挥。
为提升检索效果,研究团队创新性地提出语料库级测试时扩展方法。该方法通过大语言模型提取每篇论文的核心关键词和元数据,包括发表场所、作者信息和引用次数等,并将这些结构化信息添加到文档开头。实验表明,这种预处理方式使BM25在短答题任务中的性能提升8.18个百分点,达到83.98%的准确率。虽然AI检索器也有改进,但幅度较小,凸显了传统方法对关键词信号的敏感性优势。
深入分析发现,不同查询类型对信息要素的需求存在显著差异。短答题主要依赖论文元数据、多模态细节和文献间关系三类信息,任意两类组合即可定位93.67%的目标论文。搜索方法直接影响信息要素的权重分配——使用网络搜索时,系统更关注论文细节;而基于语料库搜索时,文献间关系成为主导因素。这种差异反映了底层技术架构对系统行为模式的深层影响。
研究团队在实验设计上采取严格规范,确保结果可靠性。网络搜索实验评估了专有和开源两类智能体,通过官方API控制变量;语料库搜索实验则统一使用32000词元的输入限制,匹配主流模型的处理能力。在数据集构建方面,研究团队从主要学术会议期刊采样种子论文,通过引用重叠分析建立文献关系网络,并利用GPT-5-mini生成需要跨文档推理的查询样本,确保评估任务的真实性和复杂性。
评估指标设计充分考虑了不同查询类型的特性。短答题采用精确匹配标准,要求输出必须完全包含标准答案;开放式问题则引入加权召回率,根据文献相关性分配不同权重。这种差异化评估方式更准确地反映了系统在实际应用中的表现。语料库构建遵循严格标准,仅选用开放获取的最新文献,并通过分层采样确保领域覆盖的均衡性。
该研究指出,当前深度研究智能体在推理密集型检索任务中仍面临挑战,这类任务需要综合处理元数据和文献间关系。传统检索方法通过针对性优化展现出独特价值,而数据增强策略可进一步挖掘其潜力。研究强调,技术协作需要更好适应查询特征,在追求创新的同时不应忽视经典方法的有效应用。完整技术细节和实验数据可通过论文编号arXiv:2602.05975v1查询获取。












