当人类第一次走进陌生的游乐场,目光会自然被滑梯、秋千等新奇设施吸引,随后在探索中逐渐构建对环境的完整认知。然而,现有的人工智能智能体在类似场景中却常陷入"原地打转"的困境——即便面对简单的手机应用,也可能反复点击同一按钮,仿佛患上"数字失忆症"。这种局限并非源于模型智力不足,而是缺乏有效的记忆机制支撑探索行为。
由多所高校与科技企业联合研发的JAMEL框架,通过构建记忆与探索的双向反馈系统,为智能体赋予了类似人类的认知进化能力。该系统将视觉语言模型与强化学习技术深度融合,在保持计算效率的同时,实现了探索深度的显著突破。实验数据显示,在同等步数限制下,其代码覆盖率达到主流开源模型的2.3倍,计算资源消耗仅为商业闭源系统的二十分之一。
研究团队发现,传统智能体在探索任务中面临两难困境:完整记录操作历史会导致计算成本指数级增长,而截断式记忆又会丢失关键信息。JAMEL创新性地采用"记忆令牌"机制,将每步操作的屏幕截图与动作指令压缩为固定维度的数学向量。这种压缩方式既保留了核心信息,又使历史记录长度始终与探索步数成正比,而非随操作复杂度膨胀。
在决策环节,系统通过可学习的线性变换将记忆序列投影至语言空间,形成动态的"软前缀"输入。这种设计使决策模型既能感知当前屏幕状态,又能获取完整的历史上下文。实验表明,采用90亿参数的JAMEL-9B模型,在50步探索中可触发20.7个新代码路径,性能与使用完整历史记录的2000亿参数商业模型相当。
新奇度奖励机制是该框架的另一核心创新。研究团队利用网页应用的代码覆盖率特性,将"发现未执行代码"作为天然奖励信号。每当智能体触发新的代码分支,系统即给予正向反馈,这种设计无需人工标注即可自动生成训练数据。通过渐进式难度设计,模型在探索初期快速掌握基础操作,后期则自动转向复杂的多步组合操作。
数据收集流程体现了系统的自进化特性。采集模型在86个网页应用中自由探索,系统仅保留产生新发现的完整轨迹作为训练样本。这种"回溯接受"机制确保每条数据都包含有效的探索经验,最终构建出涵盖电商、社交、办公等场景的2.4万条高质量样本库。在未参与训练的10个测试应用中,JAMEL仍展现出强大的泛化能力。
性能对比实验揭示了传统方法的局限性。基于滑动窗口压缩的开源模型在20步后即出现探索停滞,而JAMEL的覆盖率曲线持续上升至50步。这种差异源于其记忆模块的完整性——当其他模型因信息丢失重复操作时,JAMEL仍能准确识别未探索区域。在算力消耗方面,该系统处理500步探索仅需106万token,仅为商业系统的二十分之一。
具体应用场景中,系统展现出多样化的探索策略。在电商平台,智能体能逐步深入多层菜单结构;面对弹窗密集的复杂界面,则通过记忆模块识别有效操作区域。研究团队特别指出,在拼多多等设计特殊的案例中,视觉遮挡问题仍构成挑战,这为后续优化指明了方向。
该成果已通过开源方式完整公开,包括论文文本、模型权重与训练代码。这种开放态度加速了技术迭代,研究人员可通过调整记忆压缩维度、探索奖励函数等参数,适配机器人导航、文本游戏等不同场景。随着"先探索后执行"范式的完善,智能体有望从被动执行指令转向主动积累经验,为通用人工智能发展开辟新路径。











