滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

英加两校联手打造AI“算盘”：让机器数数像人类一样精准可靠

时间：2026-07-01 00:22:23 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

英国萨里大学与加拿大西蒙菲莎大学联合研发的AI计数模型ABACUS，以“算盘”为灵感，通过创新机制解决了人工智能在物体计数领域的长期难题。该模型以30亿参数的轻量化架构，在七个权威测试基准中超越多数专业模型，实现了图像理解与生成能力的双向提升。研究论文以预印本形式发布于arXiv平台，编号为2606.23835。

传统AI在计数任务中表现不佳：图像生成模型常画出错误数量的物体，视觉语言模型对密集场景的估算误差显著。例如，要求生成“四只苹果”的图片可能得到三至五只，而分析人群照片时可能将45辆车误判为“超过百辆”。更棘手的是，同一模型在“看图数数”与“画图数数”任务中存在能力割裂，如同歌手能背歌词却总漏唱段落，研究团队将此现象定义为“协同鸿沟”。

ABACUS通过三大核心机制突破瓶颈。其“密度感知自适应缩放”技术借鉴人类分区域计数策略：面对密集场景时，模型利用GroundingDINO工具评估物体分布密度，自动将图像切割为2×2乃至更小的网格，逐格计数后汇总结果。实验显示，该策略使密集场景计数误差降低40%，同时保持1.2倍于原始处理速度的效率。

针对AI易混淆背景与目标物体的痛点，研究团队开发了“物体性地图”提取方法。通过解析模型内部的多头自注意力机制，将各注意力头对图像不同区域的关注强度转化为热力图，明确标注独立物体位置。训练过程中，该地图与人工标注的真实物体位置持续比对，迫使模型聚焦于有效目标而非纹理或阴影。此技术使相邻物体间的计数误差缩小近三倍。

为解决图像切割导致的重复计数问题，ABACUS引入“边界感知计数策略”。模型将每个网格内的物体分为三类：完全位于网格内的“内部物体”、主体在本格但部分越界的“边缘物体”、主体在相邻网格的“边界物体”。通过GRPO强化学习框架，模型学习根据物体分类调整计数逻辑，确保每个目标仅被统计一次。三层奖励机制（局部准确性、边界一致性、全局连贯性）使计数误差进一步降低26%。

在图像生成任务中，ABACUS构建了自我监督的闭环训练体系。生成模块根据提示词创作多张候选图片后，由已训练的理解模块评估物体数量准确性，结合图片美观度给出综合评分。高分图片的特征被反向传输至生成模块，指导其优化创作策略。由于理解模块参数在训练中保持冻结，评判标准稳定，避免了生成与理解能力的恶性竞争。该机制使生成图片的物体数量精确匹配率从45%提升至71%，远超专业计数生成模型。

模型训练分为三个阶段：首先用200万张密集标注图片训练理解模块，同步整合物体性地图监督与边界感知策略；随后冻结理解模块，训练连接器实现两侧语言互通；最后通过100万张生成数据训练生成模块，完成闭环优化。整个过程在八块英伟达A100显卡上运行44小时，仅微调4800万个参数（占总参数1.6%），显著降低计算成本。

在FSC-147物体计数数据集上，ABACUS将平均绝对误差从专业模型的12.14降至5.03；在ShanghaiTech人群计数测试中，误差较此前最佳方案减少50%；指代表达计数任务中，模型无需专门训练即可达到7.67的误差，优于多数检测类专业模型。图像生成评估显示，其作品在数量准确性与审美质量上均领先同类技术，人工盲测偏好率达39%-50%。

尽管ABACUS在常规场景中表现优异，但仍存在局限性。其视觉编码器对低于224像素的低分辨率图片处理能力较弱，监控录像等模糊场景易出现误判；医学显微图像、卫星遥感等垂直领域因视觉特征差异，需额外微调才能达到最佳效果；极端密集场景的递归切割可能导致推理速度下降，但此类情况在实际应用中占比不足3%。

该研究首次证明，计数能力可同时服务于AI的图像理解与生成任务，并通过双向促进机制实现整体性能跃升。对于电商图片核验、仓库库存管理等场景，模型能精准生成指定数量的物体图片，或快速统计照片中的车辆、人群数量，为行业提供高效工具。研究团队已开放论文下载，并验证技术可迁移至更大规模的基础模型，显示其设计具有通用性。

更多>同类资讯

AI生成大提速！UCSD等团队提出JETSPEC方法，破解大模型逐字生成瓶颈

07-01

中昊芯英“须臾®”芯片亮相泰则®2.0智算平台同步升级性能

07-01

强化学习致AI工具调用崩溃？中科院自动化所给出修复新策略

07-01

上海创智学院携手穹彻智能共建联合实验室共育具身智能全栈人才

07-01

复旦大学新突破：机器人学会“自主探索” 适应新环境更高效

07-01

最高近百万的“赛博伴侣”来袭，是科技新宠还是昂贵“玩具”？

07-01

自变量机器人推出X-Tokenizer：重新定义VLA动作离散化新问题

07-01

优必选Cruzr Y1工业人形机器人亮相，旭日芯片助力工业场景能力升级

07-01

OpenAI系统底层优化显成效：AI模型推理成本大幅削减超五成

07-01

AI编程工具“重量级”进化：Codex流量硬盘双飙升，轻与重何去何从？

07-01

邬贺铨院士：2026年工业互联网迈入智能体新阶段，聚焦三大瓶颈与协同发展

06-30

Momenta港股招股引关注，智能驾驶竞争白热化谁能突围？

06-30

邮储银行原行长刘建军谈AI：破除“AI焦虑”需厘清三大认知误区

06-30

GLM-5.3新版本怎么搞？智谱唐杰全球问策，网友齐呼：快补视觉短板！

06-30

深圳众擎机器人科技全资设新公司聚焦智能与工业机器人领域发展

06-30

点击查看更多 +

全站最新

REDMI K90至尊版来袭！狂暴双芯+超强散热，2999元起开启游戏新体验

雷军谈小米SU7 Ultra纽北表现：立志打造比肩保时捷特斯拉的梦想座驾

织密算力网络郑州打造全国算力“数纽”赋能数字中国建设

鸿蒙智行智界V9旗舰MPV受热捧 6月交付量突破5000台大关

14个月10万辆达成，东风日产以体系力破局新能源市场

现代汽车或效仿丰田：主流车型加速混动转型，纯燃油车渐行渐远

热门内容

本栏最新

织密算力网络郑州打造全国算力“数纽”赋能数字中国建设

AI产业下半场：技术创新与产业落地融合下的五大趋势与机遇洞察

15万级荣威家越07将至，AI座舱与智驾升级，能否成家用SUV新宠？

华为极简全闪数据中心2.0：以数智之力，赋能千行百业数智化跃迁

世优科技赋能教育：数字人、动作捕捉与VR课堂共绘智慧校园新图景

晟兴电话机器人助力资料补全：小步试跑精准优化，让人机协作更高效自然

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.