ITBear旗下自媒体矩阵:

阿里通义实验室开源WebSailor智能体,逼近闭源系统能力刷新多项评测纪录

   时间:2025-07-08 23:42:09 来源:智东西编辑:快讯团队 IP:北京 发表评论无障碍通道

阿里巴巴通义实验室近日宣布了一项重大进展,其最新研发的网络智能体WebSailor已正式向公众开源。这一智能体在多个高难度任务评测中展现出了卓越的性能,成功刷新了开源系统的记录,成为首个在BrowseComp等基准测试中逼近闭源系统能力的开源方案。

WebSailor具备在开放网页环境中自主导航、信息检索、多源线索整合及推理的能力,尤其擅长处理那些路径不明确、问题模糊、需要多步骤判断的复杂检索任务。这一特性使其在信息爆炸的时代中,能够为用户提供更加精准和高效的搜索体验。

在7月3日发布的Hugging Face Papers热度榜中,WebSailor的技术报告荣登榜首,成为当天备受关注的AI论文之一。这一成就不仅彰显了WebSailor的技术实力,也进一步提升了阿里巴巴在AI领域的国际影响力。

WebSailor在BrowseComp等评测中的表现尤为亮眼。BrowseComp是由OpenAI发布的网页智能体评测集,包含了1266个极具挑战性的检索任务,旨在考察模型在开放网页上的搜索、筛选、整合和推理能力。WebSailor在BrowseComp-en、BrowseComp-zh以及GAIA(信息检索子集)三大公开评测集上均取得了优异成绩,分别达到了12.0%、30.1%和55.4%的准确率。

尽管WebSailor的训练重点聚焦在高难度任务上,但它在面向初级问答的SimpleQA子集上也展现出了强大的泛化能力。在该任务中,WebSailor-72B版本取得了93.5%的准确率,超越了包括WebDancer、WebThinker、DeepSeek在内的多种方案。

WebSailor之所以能够取得如此显著的成果,离不开其完整的后训练方案。该方案涵盖了数据生成、冷启动调优以及强化学习三大阶段。在数据生成阶段,通义团队构建了SailorFog-QA问答数据集,通过模拟高不确定性、模糊路径的信息检索任务来生成问题样本。在冷启动调优阶段,WebSailor基于Qwen-2.5系列模型进行初始化,并通过专家路径的压缩重构来增强其在复杂任务路径中的可控性和稳定性。在强化学习阶段,WebSailor引入了新的算法DUPO(Duplicating Sampling Policy Optimization),采用双阶段动态采样策略来提升训练效率和效果。

作为通义实验室“Web智能体”系列的第三项重要发布,WebSailor的推出标志着该系列在任务构建、调优与强化学习方法上的全面整合。此前,通义实验室已经发布了WebWalker和WebDancer两款智能体,分别主攻网页任务评测基准构建和自主检索Agent策略学习。而WebSailor则在此基础上进一步提升了复杂推理能力,实现了对闭源系统能力的逼近。

未来,通义实验室将继续扩展“Web智能体”系列,构建基于浏览器的原生智能体框架,以适应更多开放式、跨模态的复杂推理场景。这一举措将为AI技术的发展注入新的活力,推动开源Agent在更多领域实现可用化。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version