滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

微信AI团队创新成果：POINTS-GUI-G模型实现界面精准识别与操作

时间：2026-02-10 06:48:35 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

微信AI团队近日在arXiv平台发布了一项突破性研究，其开发的POINTS-GUI-G模型实现了计算机对软件界面的精准理解与操作。这项技术突破标志着人机交互进入新阶段——计算机可像人类助手般识别按钮位置、输入文本内容，甚至处理复杂的专业软件界面。研究团队通过独创的训练体系，使模型在移动端、桌面端和网页端的多场景测试中均展现出卓越性能。

与传统依赖现成视觉模型的研究不同，该团队选择从基础模型POINTS-1.5起步构建技术体系。这种"从零开始"的研发路径虽面临更大挑战，却使团队能深度掌控每个技术环节。研究过程被设计为三个递进阶段：首先通过数据工程构建标准化训练集，继而优化训练策略解决分辨率适配难题，最终通过强化学习赋予模型自主决策能力。

在数据处理环节，研究团队攻克了多源异构数据的整合难题。面对来自不同平台的界面截图，团队开发了坐标归一化系统，将所有操作位置转换为0-1区间的相对坐标。更创新性地引入自动质检机制，利用界面解析工具验证每个标注的准确性，错误数据会被自动剔除。为提升模型应对复杂场景的能力，研究团队还构建了包含专业软件界面和重叠窗口的模拟环境，这些数据占训练集总量的30%以上。

分辨率适配技术成为提升操作精度的关键突破。研究显示，训练图像与实际使用分辨率的差异会导致15%以上的操作失误。团队通过双向优化方案破解难题：将训练图像分辨率提升至3072×3072像素的同时，限制使用时的图像尺寸不超过2000×2000像素。这种创新方法在ScreenSpot-Pro测试中带来显著性能提升，证明高分辨率训练与合理使用限制的结合可有效提升模型鲁棒性。

强化学习框架的设计充分体现了界面操作任务的特殊性。研究团队构建了即时反馈机制，每次操作成功即获得1分奖励，失败则无奖励。为提升训练效率，模型会同时尝试8种操作策略，根据成功率动态调整学习方向。课程学习策略的引入使训练过程更具科学性，系统自动筛选成功率在0%-75%的任务，确保模型在适度挑战中稳步提升能力。

在权威测试基准上的表现印证了技术路线的有效性。该模型在ScreenSpot-v2测试中取得95.7分，在更具挑战性的ScreenSpot-Pro测试中以59.9分超越多个参数量更大的模型。特别是在OSWorld-G多窗口测试中，66.0分的成绩证明其具备处理复杂桌面环境的能力。详细分析显示，数据工程贡献了43%的基础性能提升，视觉编码器优化和分辨率调整分别带来10分和8分的增益，最终强化学习将总分推至67分。

实际应用场景测试展现了模型的广泛适应性。在CAD软件测试中，模型能准确识别包含200余个工具项的密集菜单栏；在移动应用测试中，对滑动区域和微小按钮的定位准确率超过94%。特别值得关注的是，该8B参数模型在性能上超越了OpenCUA-32B等大型模型，证明技术路线选择比单纯增加参数量更具战略价值。

研究团队已将完整模型和评估工具开源，为学术界和产业界提供重要技术资源。开源代码包含预处理脚本、训练配置和测试套件，开发者可快速复现研究结果。这种开放态度加速了技术扩散，已有多个研究团队基于该框架开发医疗软件操作助手和工业控制系统代理等应用。

界面操作精度的提升带来多重技术启示。研究证明，通过针对性设计训练策略，中等规模模型也可实现卓越性能；明确的反馈机制可显著简化强化学习设计；渐进式课程学习能有效平衡训练效率与模型能力。这些发现为GUI智能代理领域提供了可复制的技术范式，推动人机交互向更自然、更高效的方向发展。

更多>同类资讯

跨越百年的科学接力：鸽子如何用耳朵感知地球磁场？

05-24

神舟二十三号今日发射中国空间站将首试钙钛矿电池动态服役实验

05-24

神舟二十三号蓄势待发，发射窗口天气平稳适宜护航飞天

05-24

中尼联合科考队登顶珠峰，人类首获顶峰透底冰芯样本助力科研

05-24

神舟二十三号飞船升级亮相：人机界面优化，多任务适配能力再提升

05-24

张家口宣化发现全球罕见慢速恐龙行迹 5000枚足迹绘就远古生态画卷

05-24

神舟二十三号携9项实验赴空间站：探生命科学研新型能源育太空水稻

本次神舟二十三号飞船携带了单结钙钛矿和钙钛矿基叠层两类太阳能电池材料和器件，将在中国空间站首次开展钙钛矿电池动态服役实验，获得电池在真实空间极端环境下的转换效率衰减数据。这次将开展的钙钛矿电池实验将有助于更…

05-24

神舟二十三号飞船出征在即：人机界面升级，交会对接更高效可靠

相比之前的飞船，它的载荷运输能力有了很大提升，交会对接和返回的时长相比之前有了大幅缩减，飞船也进行了一些优化改进设计，可靠性、安全性得到了全面提升。神舟二十三号飞船沿用并优化了3.5小时快速交会对接方案，对…

05-24

神舟二十三号发射倒计时：船箭蓄势待发各项准备工作有序推进

此时此刻，神舟二十三号船箭组合体已经是蓄势待发的状态，发射流程来到最后不可逆的临射倒计时，从现在开始所有的监测和准备工作都只为最后点火的那一刻。发射场的准备工作还在有序推进中，预计下午3时左右，各系统的工作…

05-24

神舟二十三号任务揭秘：谁将挑战一年太空飞行？登月准备有何新进展？

所以，针对神舟二十三号任务来说，的确是一次特殊性的任务，不少的历史性数据探索，数据成果的挖掘，都会到来，这不仅是我国空间站任务之下的突破，更是中国载人登月之下的一次突破。当然，这里说到了国外合作的问题，其…

05-24

渣打银行裁员引热议：AI浪潮下，人类如何与机器共舞求新？

05-24

《辐射》重制版或2027年亮相《上古卷轴6》尚需等待 Xbox未来游戏阵容丰富

05-24

神舟二十三号将携钙钛矿电池上空间站开启太空“服役”新征程

05-24

中国神舟二十三号女航天员或首飞驻留一年，深空探索背后的极限挑战与战略考量

05-24

神舟二十三号携钙钛矿电池上太空开启空间能源技术探索新征程

05-24

点击查看更多 +

全站最新

小米YU7 GT医疗车宁波站首秀，车厘子红战马造型，与SU7 Ultra安全车同框吸睛

小米YU7真·标准版回归！续航强劲配置高，23.35万元起售还享多项福利

清河羊绒企业如何借力阿里巴巴国际站冀南服务中心拓展跨境业务？

小红书联合飞猪发布：2026年五一出行新趋势，兴趣主导多元细分新体验

东风奕派纳米01获白俄罗斯大单，本地化策略助力海外市场拓展

福特欧洲战略调整：推嘉年华等车型重拾驾驶乐趣，与比亚迪展开激烈竞争

热门内容

本栏最新

系统渗透检测：规范操作防风险，持续检测保安全

问卷制作太麻烦？问卷加加小程序来救场！一分钟搞定问卷发起与制作

AI Agents浪潮下：大厂受困传统思维，小微团队敏捷突围占先机

北京养老服务地图上线高德：一键查询养老机构，科技助力智慧养老新体验

北京养老服务再升级！民政局携手高德上线养老地图，一键导航享便捷服务

艾立罗电子携多款测试设备亮相2026上海CPSE展助力新能源发展

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.