滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

中科院团队打造手机AI“小能手”：2.3亿参数模型力压70亿参数大模型

时间：2026-05-06 20:09:00 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

中国科学院自动化研究所与香港科学与创新研究院联合发布了一项突破性研究，其成果以预印本形式公开，论文编号为arXiv:2604.23941。这项研究聚焦于手机界面自动化操作的核心难题——如何让AI像人类一样“看懂”屏幕内容并精准定位交互元素。研究团队提出的轻量化模型GoClick，仅用2.3亿参数便实现了与70亿参数大模型相当的性能，在多个权威测试中甚至表现更优，为移动端AI助手提供了新的技术路径。

手机界面操作的复杂性远超日常想象。当用户发出“在购物软件搜索《孙子兵法》”的指令时，AI需先理解自然语言，再从屏幕中识别搜索框位置并完成点击。这一过程涉及高分辨率图像处理、多模态语义理解与像素级坐标预测，而屏幕元素的小尺寸、高相似度与动态布局进一步加剧了难度。传统解决方案依赖大型视觉语言模型，但这类模型参数规模普遍超过25亿，难以在手机端部署。

研究团队并未选择直接压缩现有大模型，而是重新设计了模型架构。他们采用编码器-解码器结构，其中编码器负责融合屏幕截图与用户指令的视觉语言特征，解码器则专注于输出目标坐标。这种分工模式避免了“全能型”解码器架构在参数缩减时丢失核心能力的问题。实验表明，同等参数量下，编码器-解码器架构的定位准确率比解码器优先架构高出15%-20%，在模拟手机环境中的响应速度提升2-3倍。

数据质量成为另一关键突破口。研究团队构建了包含1080万组“界面描述-元素位置”数据的原始数据集，涵盖网页、安卓应用等多场景截图。通过渐进式数据精炼流程，他们剔除了两类低质量数据：一是过时界面设计样本，这类数据与现代应用风格差异显著；二是逆向生成任务样本，即要求模型根据坐标生成描述的任务，这类数据会干扰定位能力学习。经过两轮筛选，最终380万条精华数据使模型准确率提升4个百分点，训练效率提高60%。

在FuncPred测试中，GoClick-L（0.8亿参数）根据功能描述定位元素的准确率达69.5%，超越参数量十倍的Qwen2-VL-7B模型。在ScreenSpot综合测试中，其得分接近8亿参数的OS-ATLAS模型，而参数量仅为其百分之一。更令人瞩目的是，2000万参数的GoClick-B在网页元素定位测试中取得90.3分，与大型模型持平。这些成果验证了“精准架构+高质量数据”策略的有效性。

实际应用场景中，GoClick展现出独特优势。研究团队设计了云端-设备协作方案：大型语言模型负责任务规划，GoClick处理屏幕定位。在Android-in-The-Wild测试中，GPT-4o配合GoClick的步骤成功率达48.9%，较纯GPT-4o提升79%，点击准确率翻倍。这种分工模式避免了让大模型同时处理逻辑推理与视觉定位的双重负担，显著降低了操作延迟。

尽管取得突破，研究团队坦言仍存在挑战。编码器-解码器架构的优势局限于专项任务，难以直接扩展至多步骤规划等复杂场景；数据精炼流程依赖人工观察性能变化，缺乏自动化评估标准；真实手机环境的内存限制与能耗约束尚未完全验证。界面设计风格的快速迭代要求模型定期更新训练数据，这增加了长期维护成本。

该研究为移动端AI开发提供了重要参考：通过架构创新与数据优化，轻量化模型完全可能实现专业级性能。对于视障用户导航、离线日程管理等实时性要求高的场景，这类技术有望带来实质性改变。完整技术细节已公开于arXiv平台，编号2604.23941，供全球研究者深入探讨。

05-06

AMD苏姿丰：AI浪潮下CPU地位攀升，公司开启高增长新篇章

05-06

映泰2026台北电脑展将展AMD下一代主板或为Zen 6架构处理器铺路

05-06

AI浪潮下存储行业“大变局”：从被动承载到主动赋能的进化之路

05-06

德国工业老将吉洋创业：AI赋能硬件开发，让创新门槛大幅降低

05-06

中国移动加速AI布局：超8万数智员工上岗，移动版智能助理即将登场

05-06

云南电网携手华为SPN：数智赋能，打造电力通信新“高速路”

05-06

Anthropic一发布Multica就开源，这个4人团队想抢占AI协作层

05-06

ChatGPT免费模型升级了：幻觉砍半/记忆更强/回答更简洁

05-06

安卓机器人变透明！5月13日揭晓，Android重要年份之一

05-06

魔形智能完成数亿元Pre-A轮融资，布局Token基础设施

05-06

4天吸金900万，由前OpenAI顾问创立的Moritz正通过“软件+律师”重塑法律行业

05-06

消息称OpenAI 即将推出专为 ChatGPT 打造的智能手机

05-06

为年末IPO打造故事，OpenAI手机项目加速推进预计明年上市

05-06

份额从66%锐减至0 成全华为等国产芯片！黄仁勋批评美国芯片管制

05-06

点击查看更多 +

全站最新

CLA反哺全球显成效奔驰深耕中国加速电动化与智能化转型

小米首款增程全尺寸SUV“SKYNOMAD”谍照流出，家庭市场新选择下半年发布

智屏“三位一体”生态构建大屏营销新范式，助力品牌破圈增长有新招

家居消费新选择：上海实体展厅如何成为“信任”与“品质”的双重保障

云南电网携手华为SPN：数智赋能，打造电力通信新“高速路”

上海非织造布展：科学布局展位空间精准视觉营销助力品牌破圈

热门内容

本栏最新

英特尔高层大变动：前高通高管执掌新事业部，CTO人选同步落定

魔形智能获数亿元Pre-A轮融资加速AGI产业高性能Token产品布局

2026北京车展：吉利银河之光第2代首发智擎混动技术引领绿色出行

AI大厂激战正酣，普通人如何破局？挖掘自身数据宝藏打造专属智能体

吉利中国星i-HEV智擎混动双车上市以AI油混开启节能出行新体验

特斯拉奥斯汀Robotaxi突破运营限制夜间无监管运行拓展自动驾驶新场景

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.