在人工智能技术快速发展的当下,如何让AI代理完成复杂的信息检索任务成为学界关注的焦点。爱丁堡大学与格拉斯哥大学联合研究团队通过系统性实验,在arXiv平台发布最新成果,首次揭示了不同文本搜索方法在深度研究场景中的真实表现差异,为优化AI信息处理能力提供了新思路。
深度研究被定义为AI版的调查记者工作,要求系统通过多轮搜索、推理和信息整合来解答复杂问题。研究团队采用BrowseComp-Plus数据集进行测试,该数据集包含830个需要深度思考的问题,并提供固定文档库和人工验证的相关性判断,确保所有测试方法在相同条件下竞技。实验选取gpt-oss-20b和GLM-4.7-Flash两个开源AI代理,搭配BM25、SPLADE-v3等四大类搜索方法,以及monoT5-3B等三种排序优化工具,构建了完整的测试框架。
实验发现颠覆了传统认知:诞生于1990年代的传统关键词搜索方法BM25,在段落级信息处理中展现出惊人实力。当gpt-oss-20b代理使用BM25搜索短段落时,准确率达到57.2%,超越所有参数量达数十亿的神经网络方法。研究人员指出,AI代理倾向于使用包含精确匹配要求的关键词查询,这种风格与BM25的匹配机制高度契合。通过调整文档长度标准化参数,BM25在完整文档处理中的性能提升幅度超过70%,证明传统方法经过适当调优仍具竞争力。
在信息处理单元的选择上,研究证实将长文档切分为短段落具有显著优势。这种方法不仅减少AI代理的"工作记忆"占用,还能避免信息截取损失,使搜索准确率提升8.4%。对于工作空间较小的模型,这种提升效果更为明显。实验同时表明,为段落处理额外配备完整文档阅读器反而会降低效果,说明短段落本身已能满足信息获取需求。
二次排序策略的有效性得到充分验证。采用BM25初步筛选配合monoT5-3B重排序的组合,在保持较低计算成本的同时,达到68.9%的准确率,接近商业顶级模型GPT-5的70.1%。研究显示,重排序深度与效果呈正相关,但存在边际收益递减规律。值得注意的是,基于推理的重排序方法Rank1-7B在关键词查询场景中表现不佳,反映出训练数据与应用场景的适配性问题。
查询风格对搜索效果的影响超出预期。AI代理发出的网络搜索风格查询与神经网络模型训练使用的自然语言问题存在显著差异,导致先进模型在实际应用中表现打折。研究团队开发的查询到问题转换方法,通过将关键词查询转换为自然语言格式,使SPLADE-v3的召回率提升7.34%。这种转换在结合AI代理推理上下文时效果更佳,说明理解查询意图比单纯格式转换更重要。
在技术经济性分析中,研究团队强调平衡计算资源与效果的重要性。实验表明,通过合理组合不同规模的技术组件,可以在控制成本的同时实现接近顶级性能。段落级处理不仅提升准确性,还通过减少单次处理量降低计算需求,这种特性在资源受限环境中尤为宝贵。重排序深度的选择实验则揭示,实际应用中需要根据具体需求确定最优参数设置。
针对文档长度处理的技术细节,研究发现BM25的参数设置具有决定性影响。将文档长度标准化参数b从默认值0.4调整至0.87后,性能提升幅度超过70%。系统性的参数网格搜索显示,处理该数据集时较大的b值通常更有效,而k1值在较大范围内都能保持稳定表现。这些发现为传统搜索方法的现代化应用提供了重要参考。
完整文档阅读器的实际作用呈现情境依赖性。在完整文档处理中,该工具能补偿信息截取损失,使准确率提升5.3个百分点。但在段落级处理场景下,其作用变得有限甚至产生轻微负面影响。这表明辅助工具的配置需要与基础架构特点相匹配,避免功能重叠导致的决策干扰。
该研究通过830个复杂问题的系统性测试,揭示了文本搜索技术在深度研究场景中的多维度表现规律。从传统方法的现代化调优到查询风格的适配性改进,从信息处理单元的选择到技术组合的经济性分析,这些发现为优化AI信息检索系统提供了全面指导。随着AI代理在专业领域的广泛应用,这类基础研究对于提升技术实用价值具有重要意义。










