当需要完成复杂的信息检索或深度研究任务时,让多个AI同时开展工作并整合结果,可能比依赖单一AI更高效。普林斯顿大学语言与智能实验室的研究团队提出了一种名为AggAgent的聚合方法,通过设计专用工具,使汇总AI能够像经验丰富的侦探长一样,按需查阅多个AI探员的调查记录,从而生成更优答案。
近年来,大型语言模型在处理复杂任务时展现出强大能力,但单个AI在执行需要多步骤搜索、综合大量信息的任务时,仍存在局限性。研究人员发现,让多个AI并行工作可显著提升任务成功率。例如,在BrowseComp网络信息搜索测试中,单个GLM-4.7-Flash模型的正确率仅为27%,而同时部署8个该模型探员时,只要有一个探员答对,整体成功率便可提升至59%。这表明,正确答案可能已存在于某个探员的调查记录中,关键在于如何有效提取。
然而,整合多个AI的冗长调查记录面临挑战。现有方法如简单投票、置信度加权投票或选择步骤最少的探员结论,均存在明显缺陷。更复杂的方法如“方案汇总”仅综合最终结论,丢失了调查过程中的关键证据;“摘要汇总”虽压缩记录,但会遗漏细节且计算成本高昂。研究团队指出,直接处理完整记录超出AI记忆容量,而仅依赖最终结论或压缩摘要又会丢失重要信息,这一矛盾亟待解决。
AggAgent的设计思路是赋予汇总AI按需查阅记录的能力,而非强制其一次性处理所有内容。其工作流程分为四步:首先浏览每个探员的摘要信息,如搜索次数和工具使用情况;其次调用“get_solution”工具获取所有最终结论,识别分歧点;然后通过“search_trajectory”工具在特定探员的记录中检索关键词,定位关键证据;最后使用“get_segment”工具读取连续步骤的完整内容,确认细节后提交答案。这一策略使计算量与单次探员工作相当,不会因探员数量增加而显著上升。
为验证AggAgent的效果,研究团队在六项任务中测试了三种规模的AI模型,包括30亿参数的GLM-4.7-Flash、1220亿参数的Qwen3.5-122B和2290亿参数的MiniMax-M2.5。任务分为两类:信息搜索类(如BrowseComp、HLE)和深度研究类(如Healthbench-Hard医学问答)。实验结果显示,AggAgent在几乎所有任务和模型中均优于其他方法。与单个探员相比,8个探员加AggAgent的组合使准确率平均提升13至18个百分点;与“方案汇总”相比,平均再提升2至5个百分点,在深度研究类任务中领先超10个百分点。
成本分析表明,AggAgent的额外开销仅约5.7%,远低于“摘要汇总”的41%,而效果更优。延迟时间方面,AggAgent与“方案汇总”相当,显著低于“摘要汇总”。进一步实验发现,使用能力更强的大模型(如MiniMax-M2.5)作为侦探长,可进一步提升成绩,甚至在BrowseComp-Plus任务中超越理论上限。这表明,多小模型并行搜索加一大模型汇总的分工模式,在成本和效果上可能达到平衡。
研究团队还对比了AggAgent综合创作新答案与直接选择最佳旧答案的效果。结果显示,综合创作在深度研究类任务中优势明显,因各探员报告的优缺点分散,综合可取长补短;在信息搜索类任务中,综合创作仍略占优势,尽管直接选择策略相对合理。工具使用分析显示,AggAgent主要依赖关键词检索,精准定位关键细节,而非盲目翻阅大量内容。模型能力越强,工具调用次数越少,深度研究类任务的调用次数也低于信息搜索类任务。
AggAgent的典型应用场景包括:从少数探员的记录中发现多数派忽略的正确答案;通过对比原始数据消解分歧;拼合多个探员的碎片化线索得出完整答案;以及通过追查少数派推理过程纠正系统性错误。目前,该方法未针对汇总任务专门训练,研究团队认为,未来为聚合探员定制训练模型是值得探索的方向。相关论文已公开,编号为arXiv:2604.11753,供对多智能体系统或并行推理感兴趣的读者参考。











