阿里巴巴通义实验室近日宣布了一项重大进展,其研发的最新网络智能体WebSailor已正式向公众开源。这款智能体在多个高难度任务评测中表现卓越,刷新了开源系统的成绩记录,成为首个在BrowseComp等基准测试中逼近闭源系统能力的开源方案。
WebSailor具备在开放网页环境中自主跳转页面、查找信息、整合多源线索并完成推理的能力,尤其擅长处理那些路径不明确、问题模糊、需要多步判断的复杂检索任务。这一特性使其在多个公开评测集上大放异彩,包括BrowseComp-en、BrowseComp-zh以及GAIA(信息检索子集),分别取得了12.0%、30.1%和55.4%的优异成绩。
BrowseComp评测集由OpenAI发布,包含1266个极具挑战性的检索任务,旨在考察模型在开放网页上的搜索、筛选、整合和推理能力。WebSailor在这一评测中表现尤为突出,不仅远超DeepSeek R1等开源方案,还在多个指标上逼近了Grok-3、Doubao-Search等闭源方案,展现了其强大的实力。
除了在高难度任务中表现出色,WebSailor在面向初级问答的SimpleQA子集上也展现出了良好的泛化能力,取得了93.5%的准确率,超过了包括WebDancer、WebThinker、DeepSeek在内的多种方案。这一成绩进一步证明了WebSailor在处理不同类型任务时的灵活性和适应性。
WebSailor的核心突破在于其完整的后训练方案,该方案包括数据生成、冷启动调优和强化学习三大阶段。为了提升智能体处理高不确定性任务的能力,通义团队构建了SailorFog-QA问答数据集,通过模拟复杂知识图谱和信息模糊化处理,生成了多跳、非线性、起点不明的问题样本。在冷启动微调阶段,WebSailor基于Qwen-2.5系列模型进行初始化,并通过压缩重构专家路径,增强了其在复杂任务路径中的可控性和稳定性。最后,通过引入强化学习新算法DUPO,WebSailor在提升效果的同时,将复杂Agent的强化学习训练速度提高了2–3倍。
WebSailor是通义实验室“Web智能体”系列的第三项重要发布,继WebWalker和WebDancer之后,它整合了任务构建、调优与强化学习方法,首次在开源系统中实现了对闭源系统能力的追近。通义团队表示,他们将继续扩展该系列,构建基于浏览器的原生智能体框架,以适应更多开放式、跨模态的复杂推理场景。这一举措无疑将为开源Agent的可用化提供新的可能性,推动人工智能技术的进一步发展。