在网页智能体(Web Agent)领域,一个名为BrowserBC的开源项目正引发广泛关注。该项目由Einsia AI旗下Navers Lab推出,旨在解决当前智能体在处理网页任务时面临的核心挑战——如何避免重复探索,实现操作经验的复用。
当前,Claude、Codex等智能体已具备基本的网页操作能力,能够识别按钮、输入信息、跳转页面。但每当遇到新任务或新网站时,这些智能体仍需依赖大型模型从零开始探索,不仅效率低下,且容易陷入死循环或偏离任务目标。BrowserBC通过将人类操作轨迹转化为可复用的技能,为这一问题提供了创新解决方案。
BrowserBC的核心流程分为三步:录制、转写和执行。首先,系统记录用户在浏览器中完成任务的完整过程,包括页面状态、操作步骤和反馈信息。随后,这些原始轨迹被清洗并转写为自然语言描述的技能卡,详细说明任务意图、关键步骤和完成标准。最后,这些技能卡可被任何模型读取,指导其在新场景中完成类似任务。
与传统按键精灵不同,BrowserBC不依赖固定坐标或选择器,而是提取可迁移的过程性知识。例如,在预订民宿的任务中,技能卡会指导智能体先输入基本信息,再应用筛选器,最后验证结果,而非记录具体的点击位置。这种设计使技能能够适应页面布局的变化,实现跨网站的通用性。
该项目在海外开源社区引发热烈讨论,发布仅6小时便产生超过2500条相关讨论,并登上Twitter今日新闻。AI领域知名分享者AK也对其表示关注。BrowserBC的开源代码、技术博客和研究论文均已公开,供研究者参考。
在技术实现上,BrowserBC面临两大挑战:如何从嘈杂的轨迹中提取有效技能,以及如何管理不断增长的技能库。为解决这一问题,系统采用语义分段和证据抽取技术,过滤无关信息并保留关键步骤。同时,通过构建技能图,将相关技能组织为可扩展的结构,支持增量更新和局部检索。
实验数据显示,BrowserBC显著提升了智能体的任务完成率。在WebArena-Hard基准测试中,注入技能的智能体成功率从60.5%提升至81.4%,挽救了54个原本失败的任务。在更复杂的ClawBench测试中,成功率提升幅度达到35.5个百分点,且在所有任务类别中均表现优异。
进一步分析表明,技能卡的作用在于提供策略性指导,而非强制执行。当智能体被允许根据当前页面调整技能应用时,任务完成率更高。这验证了BrowserBC的设计理念:技能应作为先验知识,而非精确指令,最终决策仍需结合实时页面信息。
BrowserBC的另一重要特性是模型无关性。实验显示,由大型模型蒸馏的技能可有效提升小型模型的性能,实现"一次蒸馏、多次复用"的目标。这种设计降低了对计算资源的需求,使技能应用更具普适性。
尽管BrowserBC在提升智能体效率方面表现突出,但其应用仍存在边界。研究指出,当前失败案例主要源于执行精度问题,如长表单填写遗漏或目标对象歧义。这表明,技能卡可补充流程知识,但无法完全替代底层模型的能力提升。
BrowserBC的研究团队还探索了该方法的扩展性。在Ubuntu桌面任务的诊断性研究中,17个任务在应用匹配技能后性能得到改善,证明过程性先验可跨越浏览器场景,应用于更广泛的交互环境。然而,当任务涉及底层GUI控制或检索到错误技能时,性能提升会受到限制。
BrowserBC的出现,为网页智能体的发展提供了新思路。通过将人类操作经验转化为结构化知识,该方法不仅提升了任务处理效率,还为智能体的持续学习奠定了基础。随着技能库的不断积累,网页智能体有望从"能够操作"向"高效操作"迈进。











