在移动设备和桌面系统的日常操作中,许多复杂任务的完成往往需要连续进行数十次交互。从预订会议到在游戏商城购买装备,再到跨应用完成工作流,这些长链路操作对自动化技术提出了严峻挑战。尽管基于多模态大语言模型的GUI智能体已取得显著进展,但当任务步骤超过10-15步时,现有方法的成功率会出现断崖式下降,这成为制约技术落地的关键瓶颈。
针对这一难题,由多所高校与科研机构联合研发的LongHorizonUI框架近日取得突破性进展。该研究构建了首个专注于长链路场景的评测基准LongGUIBench,并提出包含增强感知、深度反思决策与补偿式执行三大核心模块的统一解决方案。相关成果已被国际学习表征会议(ICLR 2026)接收,为复杂场景下的GUI自动化提供了全新范式。
研究团队通过系统性实验发现,现有方法在长链路任务中存在感知漂移、定位偏差和决策误差累积的问题。在AndroidControl基准测试中,当操作序列超过15步时,主流方法的平均成功率不足60%,远低于5步内90%以上的成功率。这种非线性衰减表明,跨步状态依赖的有效捕捉是提升长链路任务执行能力的关键。
为构建更具挑战性的评测环境,LongGUIBench基准特别设计了包含15款主流应用和13款热门游戏的测试集。所有任务操作步数均不低于15步,平均达到22.1步。其中游戏场景任务最长可达37步,覆盖装备管理、活动参与等核心机制。每条任务均提供高阶目标描述与原子操作序列的双重指令标注,并配备精细的UI语义信息,包括控件类型、位置坐标和状态属性。
在技术实现层面,LongHorizonUI通过分层处理不确定性构建完整闭环。多模态增强感知模块采用控件检测与OCR识别并行架构,为每个UI元素分配唯一空间索引作为稳定锚点。针对复合控件的识别难题,该模块引入基于交并比的语义绑定机制,当图标与文本检测框重叠度超过阈值时自动关联为同一实体。对于弹窗关闭按钮等关键元素,系统在高优先区域设置模板匹配修复机制,确保关键操作不被遗漏。
深度反思决策模块通过强制三级闭环推理提升决策可靠性。该模块首先验证上一步操作是否成功执行,接着检查当前界面状态与任务目标的一致性,最后要求模型在给出执行指令前说明操作依据。在动作执行前,系统会校验目标元素是否存在、动作语义是否匹配,不满足条件的指令将被拒绝并触发修正机制。
补偿式执行器则通过多级定位策略应对物理执行中的不确定性。系统优先使用元素索引定位控件质心,失败时在检测框内随机采样点击点,若仍无法执行则回退到屏幕绝对坐标并添加微小扰动。每次操作后,系统会验证执行结果,当所有定位策略均失效时触发局部重规划或回滚到上一个成功状态继续执行。
实验数据显示,LongHorizonUI在LongGUIBench基准上取得显著优势。在通用应用场景中,低级指令步骤成功率达到85.3%,高级指令成功率达52.3%,较对比方法分别提升6.1%和30.5%。游戏场景中同样保持领先,整体平均成功率达77.3%。在跨平台UI元素定位基准ScreenSpot上,该框架以90.4%的平均准确率超越所有开源方法,在Icon类元素识别上表现尤为突出。
消融实验进一步验证了各模块的必要性。移除控件检测器导致步骤完成率下降6.1%,仅使用索引定位的任务完成率为81.4%,而叠加补偿策略后提升至85.3%。在超长链路测试中,该框架在50步任务中取得29.4%的成功率,较对比方法提升4.8个百分点,充分证明其在极端复杂场景下的鲁棒性。









