近日,X-PLUG团队在GitHub平台上震撼发布了他们的最新力作——Mobile-Agent-v3,这是一款以GUI-Owl为核心构建的跨平台多代理框架。Mobile-Agent-v3集规划、进度追踪、自我反思及记忆功能于一身,旨在为用户带来前所未有的GUI自动化操作体验。
作为Mobile-Agent-v3的基石,GUI-Owl不仅融合了感知、基础操作、逻辑推理、规划制定及执行控制等多维度功能,更是一款原生设计的端到端多模态代理。其独特的设计使得跨平台交互和多轮对话决策变得更为顺畅,同时拥有出色的中间推理能力,确保用户在多任务处理场景下也能享受到稳定的性能。
X-PLUG团队强调,Mobile-Agent-v3不仅在功能上实现了全面升级,更在异常处理和自我反思方面取得了显著进步。这意味着,在面对弹窗干扰、广告弹窗等复杂情况时,该框架仍能保持高效运作。Mobile-Agent-v3新增的关键信息记录功能,极大简化了跨应用任务的执行流程,为用户日常操作带来了极大便利。
Mobile-Agent系列的前几个版本,包括Mobile-Agent-v2和PC-Agent,分别在NeurIPS2024和ICLR2025两大国际顶级会议上获得认可,充分展示了该项目在学术界的广泛影响力。这些成就不仅为X-PLUG团队赢得了荣誉,更为Mobile-Agent-v3的发布奠定了坚实的基础。
为了助力开发者和研究人员更深入地挖掘Mobile-Agent的潜力,X-PLUG团队还提供了丰富的资源支持,包括详尽的技术报告、直观的演示视频以及完整的代码库。这些资源不仅让用户能够亲身体验到Mobile-Agent的强大功能,更为他们参与后续的开发和优化工作提供了可能。感兴趣的用户可通过访问以下链接了解更多详情:https://github.com/X-PLUG/MobileAgent。