人工智能领域迎来重要突破,阶跃星辰团队正式开源其最新研发的GELab-Zero项目,为移动端智能体开发提供全新解决方案。该项目包含4B参数的GUI Agent模型、完整的本地化推理基础设施以及面向真实场景的评测标准,旨在降低消费级智能体的开发门槛,推动AI技术在终端设备上的规模化应用。
核心模型GELab-Zero-4B-preview在多个基准测试中表现优异,不仅在ScreenSpot、OSWorld等传统GUI评测中刷新同尺寸模型纪录,更在基于真实业务场景构建的AndroidDaily评测体系中取得73.4%的准确率。该模型突破性地实现了在消费级硬件上运行,其轻量化设计使4B参数模型即可达到32B参数模型的性能水平,同时保持更低的部署成本和更快的响应速度。
技术架构方面,项目团队构建了完整的智能体开发工具链。开发者可通过统一部署流水线自动处理设备连接、权限配置等底层操作,支持多设备任务分发与交互轨迹记录。系统提供ReAct闭环推理、多智能体协作等四种工作模式,并配备可视化调试界面,使开发者能够专注于交互策略创新而非基础设施搭建。这种"开箱即用"的设计理念,使单个开发者即可在数小时内完成从模型部署到复杂任务验证的全流程。
针对移动生态碎片化难题,研究团队提出创新解决方案。通过动态环境适配技术,模型可自动识别不同品牌设备的界面布局差异,在华为、小米、OPPO等主流机型上实现跨平台兼容。在复杂任务处理方面,模型展现出强大的泛化能力:既能准确执行"购买300g红颜草莓和125g蓝莓"等精确指令,也能理解"找部成龙经典动作片"等模糊需求,通过自主拆解任务步骤、评估选项优先级完成操作。
AndroidDaily评测体系的建立标志着行业评估标准的重大革新。该体系覆盖饮食、出行、购物等六大生活场景,选取外卖、打车、社交等高频应用构建测试任务库。每个任务均包含真实用户交互流程,如支付环节需要模拟输入密码、高危操作要求人工确认等。这种设计使评测结果更贴近实际应用环境,为模型优化提供可靠依据。静态评测与端到端测试的双轨机制,既保证评估效率又兼顾执行稳定性,其中端到端测试任务成功率直接反映模型在真实场景中的综合能力。
开源项目包含完整的代码库、预训练模型和详细文档,支持通过GitHub和Hugging Face平台获取。技术文档详细说明模型训练方法、推理优化技巧和跨平台部署指南,并提供外卖采购、福利领取等典型场景的完整代码示例。这种开放共享模式将加速智能体技术在移动端的普及,预计将催生更多创新应用场景。
项目团队透露,后续开发将聚焦三个方向:提升模型在低算力设备上的运行效率,扩展车载系统、IoT设备等新平台支持,以及构建开发者生态社区。通过持续优化模型架构和工具链,团队致力于打造面向消费级市场的通用智能体解决方案,使AI技术真正融入日常生活服务。









