ITBear旗下自媒体矩阵:

英加两校联手打造AI“算盘”:让机器数数像人类一样精准可靠

   时间:2026-07-01 00:22:23 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

英国萨里大学与加拿大西蒙菲莎大学联合研发的AI计数模型ABACUS,以“算盘”为灵感,通过创新机制解决了人工智能在物体计数领域的长期难题。该模型以30亿参数的轻量化架构,在七个权威测试基准中超越多数专业模型,实现了图像理解与生成能力的双向提升。研究论文以预印本形式发布于arXiv平台,编号为2606.23835。

传统AI在计数任务中表现不佳:图像生成模型常画出错误数量的物体,视觉语言模型对密集场景的估算误差显著。例如,要求生成“四只苹果”的图片可能得到三至五只,而分析人群照片时可能将45辆车误判为“超过百辆”。更棘手的是,同一模型在“看图数数”与“画图数数”任务中存在能力割裂,如同歌手能背歌词却总漏唱段落,研究团队将此现象定义为“协同鸿沟”。

ABACUS通过三大核心机制突破瓶颈。其“密度感知自适应缩放”技术借鉴人类分区域计数策略:面对密集场景时,模型利用GroundingDINO工具评估物体分布密度,自动将图像切割为2×2乃至更小的网格,逐格计数后汇总结果。实验显示,该策略使密集场景计数误差降低40%,同时保持1.2倍于原始处理速度的效率。

针对AI易混淆背景与目标物体的痛点,研究团队开发了“物体性地图”提取方法。通过解析模型内部的多头自注意力机制,将各注意力头对图像不同区域的关注强度转化为热力图,明确标注独立物体位置。训练过程中,该地图与人工标注的真实物体位置持续比对,迫使模型聚焦于有效目标而非纹理或阴影。此技术使相邻物体间的计数误差缩小近三倍。

为解决图像切割导致的重复计数问题,ABACUS引入“边界感知计数策略”。模型将每个网格内的物体分为三类:完全位于网格内的“内部物体”、主体在本格但部分越界的“边缘物体”、主体在相邻网格的“边界物体”。通过GRPO强化学习框架,模型学习根据物体分类调整计数逻辑,确保每个目标仅被统计一次。三层奖励机制(局部准确性、边界一致性、全局连贯性)使计数误差进一步降低26%。

在图像生成任务中,ABACUS构建了自我监督的闭环训练体系。生成模块根据提示词创作多张候选图片后,由已训练的理解模块评估物体数量准确性,结合图片美观度给出综合评分。高分图片的特征被反向传输至生成模块,指导其优化创作策略。由于理解模块参数在训练中保持冻结,评判标准稳定,避免了生成与理解能力的恶性竞争。该机制使生成图片的物体数量精确匹配率从45%提升至71%,远超专业计数生成模型。

模型训练分为三个阶段:首先用200万张密集标注图片训练理解模块,同步整合物体性地图监督与边界感知策略;随后冻结理解模块,训练连接器实现两侧语言互通;最后通过100万张生成数据训练生成模块,完成闭环优化。整个过程在八块英伟达A100显卡上运行44小时,仅微调4800万个参数(占总参数1.6%),显著降低计算成本。

在FSC-147物体计数数据集上,ABACUS将平均绝对误差从专业模型的12.14降至5.03;在ShanghaiTech人群计数测试中,误差较此前最佳方案减少50%;指代表达计数任务中,模型无需专门训练即可达到7.67的误差,优于多数检测类专业模型。图像生成评估显示,其作品在数量准确性与审美质量上均领先同类技术,人工盲测偏好率达39%-50%。

尽管ABACUS在常规场景中表现优异,但仍存在局限性。其视觉编码器对低于224像素的低分辨率图片处理能力较弱,监控录像等模糊场景易出现误判;医学显微图像、卫星遥感等垂直领域因视觉特征差异,需额外微调才能达到最佳效果;极端密集场景的递归切割可能导致推理速度下降,但此类情况在实际应用中占比不足3%。

该研究首次证明,计数能力可同时服务于AI的图像理解与生成任务,并通过双向促进机制实现整体性能跃升。对于电商图片核验、仓库库存管理等场景,模型能精准生成指定数量的物体图片,或快速统计照片中的车辆、人群数量,为行业提供高效工具。研究团队已开放论文下载,并验证技术可迁移至更大规模的基础模型,显示其设计具有通用性。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version