ITBear旗下自媒体矩阵:

上海AI实验室OS-Genesis:让机器人自主探索,开启GUI智能体训练新范式

   时间:2025-09-19 04:24:28 来源:科技行者编辑:快讯团队 IP:北京 发表评论无障碍通道
 

上海AI实验室联合香港大学、牛津大学等顶尖机构,在图形用户界面(GUI)智能体训练领域取得突破性进展。其开发的OS-Genesis系统通过"反向任务合成"技术,使AI智能体能够像人类一样自主探索软件功能,相关研究成果已发表于arXiv平台。这项创新为智能设备自动化操作开辟了新路径。

传统训练方法依赖人工预设任务指令,如同为机器人编写厚重的操作手册。但面对快速迭代的移动应用和网页服务,这种模式暴露出覆盖面有限、成本高昂等缺陷。研究团队提出的解决方案颠覆了这一范式:让智能体在模拟环境中自由交互,通过分析操作前后的界面变化,自动推导出有意义的任务目标。

系统工作原理可类比为探险家绘制地图。智能体首先在安卓模拟器和Chrome浏览器中随机点击、滑动,记录每个操作引发的界面变化。这些"操作-结果"配对数据形成海量训练样本。例如,系统可能记录到点击日历应用的"添加事件"按钮后,界面跳转到事件创建页面,从而掌握创建日程的核心逻辑。

核心创新在于反向任务合成机制。系统通过双层推理解析交互数据:低级指令生成阶段识别具体操作意图,如判断点击下拉菜单是为展开选项;高级指令生成阶段则将多个低级操作组合为完整任务流程,如将"输入用户名-密码-点击登录"识别为账户登录行为。这种自下而上的推理方式,使系统能发现人工设计难以覆盖的边缘功能。

为确保数据质量,研究团队设计了轨迹奖励模型(TRM)。该模型采用1-5分评分制,从任务完成度和操作连贯性两个维度评估训练轨迹。不同于传统二分法筛选,TRM保留部分成功案例中的有效操作,如同认可游泳学习中未达对岸但动作规范的尝试。实验显示,TRM评分与人类专家判断的一致性达0.813(移动任务)和0.798(网页任务)。

训练策略包含规划与执行双重目标。规划训练培养智能体分解任务的能力,要求其根据当前界面状态预测下一步操作;执行训练则强化操作精确性,确保能准确点击按钮、输入文本。这种结合使智能体既具备战略思维,又掌握战术技能。在AndroidWorld测试中,经OS-Genesis训练的模型任务成功率从9.82%提升至17.41%,显著缩小与GPT-4o智能体的差距。

数据多样性分析揭示了探索式学习的独特价值。OS-Genesis生成的任务指令平均长度达18个单词,接近人类编写的18.7个单词,远超传统方法的9-10个单词。在操作轨迹层面,系统发现的解决方案多样性是人工标注的2.3倍,包含许多人类不常使用的操作路径。这种多样性使智能体能更好适应未知环境。

工程实现面临多重挑战。研究团队构建了支持24小时运行的自动化探索系统,处理应用崩溃、网络异常等突发状况。数据处理管道采用并行架构,每日处理数万个交互三元组,并通过智能去重算法优化存储。模型推理阶段实施批处理优化,将计算成本降低40%。训练过程采用加权采样策略,确保高质量数据主导训练同时保持多样性。

在AndroidControl基准测试中,系统在833个应用上验证了泛化能力。测试数据仅20个应用与训练集重叠,但模型仍取得显著性能提升。WebArena网页环境测试进一步证明其跨领域适应性,使零样本模型具备基础操作能力,提升预训练模型在电商购物、论坛发帖等复杂任务中的表现。

研究团队坦言当前方法存在依赖专有模型、数据完整性等局限。例如任务执行模型的能力仍制约成功轨迹生成数量。但他们强调开放科学的重要性,已公开全部代码、数据和模型检查点。这种探索式学习框架为语音界面、虚拟现实等新兴交互模式提供了技术储备,有望推动AI从被动执行向主动学习转型。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version