滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

LongHorizonUI框架：破解GUI智能体长链路任务难题，推动自动化落地

时间：2026-03-12 16:45:38 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在移动设备和桌面系统的日常操作中，许多复杂任务的完成往往需要连续进行数十次交互。从预订会议到在游戏商城购买装备，再到跨应用完成工作流，这些长链路操作对自动化技术提出了严峻挑战。尽管基于多模态大语言模型的GUI智能体已取得显著进展，但当任务步骤超过10-15步时，现有方法的成功率会出现断崖式下降，这成为制约技术落地的关键瓶颈。

针对这一难题，由多所高校与科研机构联合研发的LongHorizonUI框架近日取得突破性进展。该研究构建了首个专注于长链路场景的评测基准LongGUIBench，并提出包含增强感知、深度反思决策与补偿式执行三大核心模块的统一解决方案。相关成果已被国际学习表征会议（ICLR 2026）接收，为复杂场景下的GUI自动化提供了全新范式。

研究团队通过系统性实验发现，现有方法在长链路任务中存在感知漂移、定位偏差和决策误差累积的问题。在AndroidControl基准测试中，当操作序列超过15步时，主流方法的平均成功率不足60%，远低于5步内90%以上的成功率。这种非线性衰减表明，跨步状态依赖的有效捕捉是提升长链路任务执行能力的关键。

为构建更具挑战性的评测环境，LongGUIBench基准特别设计了包含15款主流应用和13款热门游戏的测试集。所有任务操作步数均不低于15步，平均达到22.1步。其中游戏场景任务最长可达37步，覆盖装备管理、活动参与等核心机制。每条任务均提供高阶目标描述与原子操作序列的双重指令标注，并配备精细的UI语义信息，包括控件类型、位置坐标和状态属性。

在技术实现层面，LongHorizonUI通过分层处理不确定性构建完整闭环。多模态增强感知模块采用控件检测与OCR识别并行架构，为每个UI元素分配唯一空间索引作为稳定锚点。针对复合控件的识别难题，该模块引入基于交并比的语义绑定机制，当图标与文本检测框重叠度超过阈值时自动关联为同一实体。对于弹窗关闭按钮等关键元素，系统在高优先区域设置模板匹配修复机制，确保关键操作不被遗漏。

深度反思决策模块通过强制三级闭环推理提升决策可靠性。该模块首先验证上一步操作是否成功执行，接着检查当前界面状态与任务目标的一致性，最后要求模型在给出执行指令前说明操作依据。在动作执行前，系统会校验目标元素是否存在、动作语义是否匹配，不满足条件的指令将被拒绝并触发修正机制。

补偿式执行器则通过多级定位策略应对物理执行中的不确定性。系统优先使用元素索引定位控件质心，失败时在检测框内随机采样点击点，若仍无法执行则回退到屏幕绝对坐标并添加微小扰动。每次操作后，系统会验证执行结果，当所有定位策略均失效时触发局部重规划或回滚到上一个成功状态继续执行。

实验数据显示，LongHorizonUI在LongGUIBench基准上取得显著优势。在通用应用场景中，低级指令步骤成功率达到85.3%，高级指令成功率达52.3%，较对比方法分别提升6.1%和30.5%。游戏场景中同样保持领先，整体平均成功率达77.3%。在跨平台UI元素定位基准ScreenSpot上，该框架以90.4%的平均准确率超越所有开源方法，在Icon类元素识别上表现尤为突出。

消融实验进一步验证了各模块的必要性。移除控件检测器导致步骤完成率下降6.1%，仅使用索引定位的任务完成率为81.4%，而叠加补偿策略后提升至85.3%。在超长链路测试中，该框架在50步任务中取得29.4%的成功率，较对比方法提升4.8个百分点，充分证明其在极端复杂场景下的鲁棒性。

更多>同类资讯

商界集团中原峰会落幕：商界会客厅新模式赋能，共筑中原商业新未来

06-08

ETF风向标 | 半导体板块领跌，中韩半导体ETF大跌6%，通信ETF上周流入超30亿

06-08

黄仁勋押注"物理AI"，规模最大的机器人ETF华夏(562500)探底回升涨超1%，冲击5连阳

06-08

广田集团创历史新低

06-08

美股存储概念盘前集体反弹，美光科技涨超4%

06-08

机构：科技股暴跌并非AI逻辑重估，关键需看巨头支出是否放缓

06-08

油气主题基金集体上涨再度出现大幅溢价

06-08

罗氏将向Nurix支付高达23亿美元的癌症药物交易款项

06-08

微信发布关于开发者接入微信AI生态的指引

06-08

财政部拟第二次续发行2026年记账式附息(十期)国债

06-08

龙虎榜丨国机精工4天2板国泰海通证券武汉紫阳东路证券营业部买入1.45亿元

06-08

美股部分中概股盘前反弹，哔哩哔哩涨超4%

06-08

大跌引发南方两倍做多海力士规模缩水超185亿

06-08

6连板大有能源：目前生产经营正常，不存在应披露而未披露的重大事项

06-08

晓程科技(300139.SZ)：目前没有芯片应用在无人机上

06-08

点击查看更多 +

全站最新

比亚迪宋Ultra・DM - i长沙焕新登场，重塑13万级家用混动SUV新典范

官降3万配置升级！2027款星海V9携五大头等舱价值焕新登场

轻舟智航携高通亮剑智驾峰会：技术突破与量产成果双丰收全球化布局加速推进

6月13日重庆车展见！长城炮Hi4-T皮卡预售14.98万起硬核实力覆盖多场景

固态电池赋能飞行汽车：跨越琼州海峡，低空出行商业化加速在望

模块化设计+高自由度DIY GMC悍马X概念车解锁越野新玩法

热门内容

本栏最新

亿达科创深圳新址启幕借湾区优势绘就数字服务发展新蓝图

尤雨溪创立的Voidzero加入Cloudflare，旗下项目持续开源且发展路线自主

软件项目研发管理全攻略：从需求到上线，六个阶段打通高效链路

普利司通与兰博基尼再携手为Fenomeno Roadster定制高性能轮胎

玉柴全球首台纯氨内燃机点火成功，悍虎专用油助力零碳动力技术落地

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.