阿里巴巴通义实验室的研究人员近日公布了一项突破性成果:他们开发的AI系统WebWatcher能够像经验丰富的侦探一样,同时处理图片和文字信息,在网络上自主完成信息搜索、数据分析和结论推导。这项研究成果已通过GitHub平台开源,完整代码和技术文档可在https://github.com/Alibaba-NLP/WebAgent获取。
传统AI助手在面对复杂问题时,往往需要用户自行在搜索引擎中筛选信息、分析文档,这个过程如同侦探需要手动收集线索。而WebWatcher的创新之处在于,它能主动理解问题需求,自主规划调查路径,综合运用图片识别、网页搜索、数学计算等多种工具,最终提供经过验证的可靠结论。在需要多模态信息整合的任务中,该系统展现出超越GPT-4o等知名AI的表现。
研究团队特别强调了多模态深度整合的重要性。现有AI系统大多只能处理单一类型信息,就像侦探团队中成员各自为战。WebWatcher则实现了视觉信息与文本信息的有机融合,其工作模式更接近人类研究员的思考方式。当用户上传一张陌生植物照片时,系统不仅能识别物种特征,还能自动搜索相关植物学资料,分析生长环境,甚至计算不同地区的分布概率。
训练数据的创新设计是这项研究的关键突破。研究团队没有简单扩大数据规模,而是构建了包含数十万高质量样本的渐进式训练体系。数据生成过程模拟人类研究员的知识探索路径,通过随机游走维基百科、GitHub等知识库,建立知识点间的关联网络。更独特的是,系统自动将文本问题转换为需要图像理解的复合任务,迫使模型必须结合多模态信息才能得出正确答案。
在评估基准方面,研究团队提出了BrowseComp-VL新型测试标准。该测试包含大量需要跨模态推理的复杂问题,例如通过分析建筑照片来解答其历史背景,或根据模糊描述确定特定人物的详细信息。测试结果显示,WebWatcher在"人类最后考试"基准中达到13.6%的通过率,在BrowseComp-VL测试中平均得分27.0%,两项指标均领先同类开源系统。
系统的核心能力体现在五个维度:图像内容理解与搜索、智能网页信息提取、动态网页访问分析、数学计算验证以及文字识别处理。这些能力不是孤立运作,而是根据问题需求动态组合。当处理包含统计图表的问题时,系统会先识别图表元素,然后访问相关网页获取原始数据,最后通过代码执行进行趋势分析,整个过程如同专业研究员的完整工作流程。
强化学习机制使系统具备自我改进能力。研究团队采用群体相对策略优化方法,让多个解决方案同时竞争,保留表现优异的策略。这种训练方式使系统学会了根据问题类型选择最佳工具组合,在科学类问题中侧重数据计算,在历史类问题中强化文献检索,显著提升了处理效率和准确性。
技术实现的深层价值在于推理过程的可解释性。系统会详细记录每个决策步骤,包括为何选择特定搜索策略、如何分析获取的信息、结论依据哪些证据等。这种透明度不仅有助于验证结果可靠性,也为后续优化提供了明确方向。研究论文中展示的典型案例显示,系统在处理复杂问题时展现出的逻辑严谨性,已接近人类专家的思考水平。
目前该技术仍处于研究阶段,但开源代码为开发者提供了创新基础。研究团队指出,这类多模态智能系统的成熟,可能彻底改变人类获取信息的方式。未来用户或许只需提出自然语言问题,就能获得经过深度分析的完整答案,而无需在多个平台间切换。这种技术演进方向,正在重新定义人机协作的边界。