滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

AI“侦探长”上线：多探员并行搜证，精准工具翻阅锁定最优解

时间：2026-04-23 01:01:21 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

当需要完成复杂的信息检索或深度研究任务时，让多个AI同时开展工作并整合结果，可能比依赖单一AI更高效。普林斯顿大学语言与智能实验室的研究团队提出了一种名为AggAgent的聚合方法，通过设计专用工具，使汇总AI能够像经验丰富的侦探长一样，按需查阅多个AI探员的调查记录，从而生成更优答案。

近年来，大型语言模型在处理复杂任务时展现出强大能力，但单个AI在执行需要多步骤搜索、综合大量信息的任务时，仍存在局限性。研究人员发现，让多个AI并行工作可显著提升任务成功率。例如，在BrowseComp网络信息搜索测试中，单个GLM-4.7-Flash模型的正确率仅为27%，而同时部署8个该模型探员时，只要有一个探员答对，整体成功率便可提升至59%。这表明，正确答案可能已存在于某个探员的调查记录中，关键在于如何有效提取。

然而，整合多个AI的冗长调查记录面临挑战。现有方法如简单投票、置信度加权投票或选择步骤最少的探员结论，均存在明显缺陷。更复杂的方法如“方案汇总”仅综合最终结论，丢失了调查过程中的关键证据；“摘要汇总”虽压缩记录，但会遗漏细节且计算成本高昂。研究团队指出，直接处理完整记录超出AI记忆容量，而仅依赖最终结论或压缩摘要又会丢失重要信息，这一矛盾亟待解决。

AggAgent的设计思路是赋予汇总AI按需查阅记录的能力，而非强制其一次性处理所有内容。其工作流程分为四步：首先浏览每个探员的摘要信息，如搜索次数和工具使用情况；其次调用“get_solution”工具获取所有最终结论，识别分歧点；然后通过“search_trajectory”工具在特定探员的记录中检索关键词，定位关键证据；最后使用“get_segment”工具读取连续步骤的完整内容，确认细节后提交答案。这一策略使计算量与单次探员工作相当，不会因探员数量增加而显著上升。

为验证AggAgent的效果，研究团队在六项任务中测试了三种规模的AI模型，包括30亿参数的GLM-4.7-Flash、1220亿参数的Qwen3.5-122B和2290亿参数的MiniMax-M2.5。任务分为两类：信息搜索类（如BrowseComp、HLE）和深度研究类（如Healthbench-Hard医学问答）。实验结果显示，AggAgent在几乎所有任务和模型中均优于其他方法。与单个探员相比，8个探员加AggAgent的组合使准确率平均提升13至18个百分点；与“方案汇总”相比，平均再提升2至5个百分点，在深度研究类任务中领先超10个百分点。

成本分析表明，AggAgent的额外开销仅约5.7%，远低于“摘要汇总”的41%，而效果更优。延迟时间方面，AggAgent与“方案汇总”相当，显著低于“摘要汇总”。进一步实验发现，使用能力更强的大模型（如MiniMax-M2.5）作为侦探长，可进一步提升成绩，甚至在BrowseComp-Plus任务中超越理论上限。这表明，多小模型并行搜索加一大模型汇总的分工模式，在成本和效果上可能达到平衡。

研究团队还对比了AggAgent综合创作新答案与直接选择最佳旧答案的效果。结果显示，综合创作在深度研究类任务中优势明显，因各探员报告的优缺点分散，综合可取长补短；在信息搜索类任务中，综合创作仍略占优势，尽管直接选择策略相对合理。工具使用分析显示，AggAgent主要依赖关键词检索，精准定位关键细节，而非盲目翻阅大量内容。模型能力越强，工具调用次数越少，深度研究类任务的调用次数也低于信息搜索类任务。

AggAgent的典型应用场景包括：从少数探员的记录中发现多数派忽略的正确答案；通过对比原始数据消解分歧；拼合多个探员的碎片化线索得出完整答案；以及通过追查少数派推理过程纠正系统性错误。目前，该方法未针对汇总任务专门训练，研究团队认为，未来为聚合探员定制训练模型是值得探索的方向。相关论文已公开，编号为arXiv:2604.11753，供对多智能体系统或并行推理感兴趣的读者参考。

更多>同类资讯

AI量子编程大挑战：三大框架谁更让AI“头疼”？

04-23

NVIDIA推SPEED-Bench评测体系：破解大模型推理加速评测难题

04-23

AI文字生成新策略：巧妙调度模型，兼顾质量与效率的智慧之选

04-23

地平线“三箭”布局：从芯片到系统，抢占整车智能新赛道关键位

04-23

速腾聚创发布“创世”架构及两款芯片，激光雷达开启图像化感知新篇章

04-23

AI时代阅读新解：以精读深耕自我，在“主动狩猎”中收获成长

04-23

OpenAI意外“剧透”：GPT-5.5等多款前沿AI模型提前现身Codex CLI终端

04-23

OpenAI拟投至多15亿美元入股私募合资企业发力企业AI工具市场

04-23

特斯拉车机语音服务升级：豆包大模型助力，DeepSeek模型提供AI互动新体验

04-22

Anthropic加速开发常驻AI智能体Conway 或将打造跨平台模块化新体验

04-22

别克至境E7上市！大五座布局配插混系统，权益价15.49万起

04-22

阿维塔06T旅行车上市！21.29万起售，华为赋能智驾动力双升级

04-22

中国长安自我重构：以“1445”计划冲刺全球汽车竞争新高度

04-22

荣威家越07概念车亮相：以昂扬美学与AI原生，开启家庭智能出行新篇章

04-22

别克至境E7上市：大五座插混SUV，续航超长配置丰富权益价诱人

04-22

点击查看更多 +

全站最新

钛动科技获农行百亿授信！一张对民营AI科技企业的"信心投票"

公告精选︱顾家家居：拟不超11.88亿元投资建设产业总部项目；沪电股份：一季度净利润12.42亿元同比增长62.9%

江西铜业股份(00358.HK)获贝莱德增持3.4万股

京东AI新探索：实习生挑大梁，大厂抢人从“0到1”培养开始

盒马自研一体化牛奶新包装，减纸超四成，环保与体验双提升

京东与松延动力强强联合共绘人形机器人全场景应用与普及新蓝图

热门内容

本栏最新

别克至境E7上市！大五座布局配插混系统，权益价15.49万起

阿维塔06T旅行车上市！21.29万起售，华为赋能智驾动力双升级

中国长安自我重构：以“1445”计划冲刺全球汽车竞争新高度

荣威家越07概念车亮相：以昂扬美学与AI原生，开启家庭智能出行新篇章

别克至境E7上市：大五座插混SUV，续航超长配置丰富权益价诱人

阿维塔06T正式登场！未来美学设计，多种动力可选，现金权益后21.29万起

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.