ITBear旗下自媒体矩阵:

中科院团队打造手机AI“小能手”:2.3亿参数模型力压70亿参数大模型

   时间:2026-05-06 20:09:00 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

中国科学院自动化研究所与香港科学与创新研究院联合发布了一项突破性研究,其成果以预印本形式公开,论文编号为arXiv:2604.23941。这项研究聚焦于手机界面自动化操作的核心难题——如何让AI像人类一样“看懂”屏幕内容并精准定位交互元素。研究团队提出的轻量化模型GoClick,仅用2.3亿参数便实现了与70亿参数大模型相当的性能,在多个权威测试中甚至表现更优,为移动端AI助手提供了新的技术路径。

手机界面操作的复杂性远超日常想象。当用户发出“在购物软件搜索《孙子兵法》”的指令时,AI需先理解自然语言,再从屏幕中识别搜索框位置并完成点击。这一过程涉及高分辨率图像处理、多模态语义理解与像素级坐标预测,而屏幕元素的小尺寸、高相似度与动态布局进一步加剧了难度。传统解决方案依赖大型视觉语言模型,但这类模型参数规模普遍超过25亿,难以在手机端部署。

研究团队并未选择直接压缩现有大模型,而是重新设计了模型架构。他们采用编码器-解码器结构,其中编码器负责融合屏幕截图与用户指令的视觉语言特征,解码器则专注于输出目标坐标。这种分工模式避免了“全能型”解码器架构在参数缩减时丢失核心能力的问题。实验表明,同等参数量下,编码器-解码器架构的定位准确率比解码器优先架构高出15%-20%,在模拟手机环境中的响应速度提升2-3倍。

数据质量成为另一关键突破口。研究团队构建了包含1080万组“界面描述-元素位置”数据的原始数据集,涵盖网页、安卓应用等多场景截图。通过渐进式数据精炼流程,他们剔除了两类低质量数据:一是过时界面设计样本,这类数据与现代应用风格差异显著;二是逆向生成任务样本,即要求模型根据坐标生成描述的任务,这类数据会干扰定位能力学习。经过两轮筛选,最终380万条精华数据使模型准确率提升4个百分点,训练效率提高60%。

在FuncPred测试中,GoClick-L(0.8亿参数)根据功能描述定位元素的准确率达69.5%,超越参数量十倍的Qwen2-VL-7B模型。在ScreenSpot综合测试中,其得分接近8亿参数的OS-ATLAS模型,而参数量仅为其百分之一。更令人瞩目的是,2000万参数的GoClick-B在网页元素定位测试中取得90.3分,与大型模型持平。这些成果验证了“精准架构+高质量数据”策略的有效性。

实际应用场景中,GoClick展现出独特优势。研究团队设计了云端-设备协作方案:大型语言模型负责任务规划,GoClick处理屏幕定位。在Android-in-The-Wild测试中,GPT-4o配合GoClick的步骤成功率达48.9%,较纯GPT-4o提升79%,点击准确率翻倍。这种分工模式避免了让大模型同时处理逻辑推理与视觉定位的双重负担,显著降低了操作延迟。

尽管取得突破,研究团队坦言仍存在挑战。编码器-解码器架构的优势局限于专项任务,难以直接扩展至多步骤规划等复杂场景;数据精炼流程依赖人工观察性能变化,缺乏自动化评估标准;真实手机环境的内存限制与能耗约束尚未完全验证。界面设计风格的快速迭代要求模型定期更新训练数据,这增加了长期维护成本。

该研究为移动端AI开发提供了重要参考:通过架构创新与数据优化,轻量化模型完全可能实现专业级性能。对于视障用户导航、离线日程管理等实时性要求高的场景,这类技术有望带来实质性改变。完整技术细节已公开于arXiv平台,编号2604.23941,供全球研究者深入探讨。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version