阿里巴巴国际数字商务集团近日宣布,其研发团队成功推出名为Marco DeepResearch的深度研究智能体,该系统以8B参数规模实现了超越部分30B大型模型的性能表现。这项突破性成果通过系统性引入验证机制,解决了传统AI研究工具在数据准确性、推理可靠性等方面的核心痛点,为人工智能辅助复杂研究提供了全新范式。
研究团队发现,现有AI研究工具普遍存在"三重盲点":数据准备阶段因模糊化处理导致答案歧义,学习过程缺乏中间验证步骤,实际工作时受限于固定搜索策略。这些问题相互叠加,常使AI系统在处理复杂任务时产生错误累积效应。以科技公司创始人识别任务为例,当问题被改写为"以水果命名的科技公司创立者"时,系统可能同时将苹果、黑莓等公司创始人列为候选答案。
为破解这一难题,研发团队构建了贯穿全生命周期的验证体系。在数据生成环节,创新采用知识图谱逆向工程与智能体网络探索双路径:前者通过"生成器-攻击者-分析器"三角博弈确保问题答案唯一性,后者要求智能体先收集可靠证据再构建问题。这种设计使合成数据的问题可回答率虽降至29%,但人工评估显示90%以上样本具备有效挑战性。
训练阶段引入多智能体验证框架,主智能体负责任务分解,搜索子智能体执行具体查询,验证子智能体则独立检查每个推理步骤。当发现错误时,系统会记录纠错轨迹并重新训练,形成"错误诊断-策略修正"的闭环。这种机制使模型不仅学会正确答案,更掌握验证方法——在强化学习阶段,系统通过组相对策略优化,使模型在2000个高质量样本上获得显著性能提升。
实际工作时的"验证引导扩展策略"构成第三道防线。系统采用"全部丢弃"机制,当检测到推理退化时自动重置上下文,避免错误传播;同时实施多候选答案并行验证,在时间预算内持续探索更优解。配合128K token的扩展上下文窗口,该策略使模型在BrowseComp基准测试中取得31.4分,较基线提升15分,在中文环境测试中更达到47.1分的领先水平。
实验数据显示,Marco DeepResearch在六个权威基准测试中全面超越同规模模型。在WebWalkerQA任务中,其69.6分的表现接近人类专家水平;面对需要跨页面证据聚合的DeepSearchQA任务,系统生成的答案集完整性较前代提升40%。特别值得注意的是,该模型在GAIA文本版任务中仅以0.5分微弱差距落后于4B参数的RE-TRAC模型,展现出小规模模型的巨大潜力。
技术实现层面,研究团队基于Qwen3-8B骨干模型,通过YaRN技术实现长序列处理能力。工程优化方面,采用Redis缓存系统减少重复计算,异步工具调用提升并发性能,使64个A100 GPU集群的训练效率提升30%。两阶段训练流程中,监督微调阶段结合开源数据集与12000个合成样本,强化学习阶段则通过二元奖励机制确保输出质量。
这项成果对AI辅助研究具有多重启示。在学术领域,系统可自动完成文献调研、数据交叉验证等基础工作,使研究者专注核心创新;商业应用中,其可靠性验证机制特别适合市场分析、技术趋势预测等场景;教育领域则可培养学生系统的研究方法论。研究团队正探索将验证机制扩展至多模态领域,通过结合学术论文、专利数据库等结构化数据,进一步提升系统在专业领域的适用性。







