滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

华中科技大学等团队提出NUMINA方案：让AI视频生成精准“数数”

时间：2026-04-18 05:20:42 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能视频生成领域，一项名为NUMINA的新技术正引发关注。这项由国内高校与科技企业联合研发的解决方案，针对当前AI视频生成系统普遍存在的“数量感知缺陷”提出了创新性的改进方法。实验数据显示，该技术可使基础模型的物体计数准确率提升最高达7.4个百分点，且无需重新训练原有模型。

当前主流视频生成模型普遍存在一个尴尬现象：当用户要求生成“三只猫在客厅玩耍”时，系统可能产出包含两只或四只猫的画面。这种数量偏差不仅出现在简单场景，在“三名建筑工人操作两台挖掘机”等复合指令中错误率更高。研究团队通过系统分析发现，问题根源在于AI模型对数字词汇的语义理解存在根本性缺陷——在训练过程中，模型对“三只”“四个”等数量词的关注度远低于名词和形容词，导致无法建立正确的空间布局约束。

技术实现层面，NUMINA采用双阶段工作模式。在视频生成的前期阶段，系统通过分析模型内部的注意力机制，自动筛选出具备物体边界感知能力的特殊注意力头。这些“最佳小专家”能够清晰识别画面中独立个体的空间分布，结合文字描述中的数量要求，构建出精确的物体分布地图。当检测到数量偏差时，系统进入修正阶段，通过微创式的注意力引导策略调整生成过程：删除多余物体时优先选择对构图影响最小的实例，添加缺失物体时则以现有最小物体为模板进行智能复制。

实验评估采用专门设计的CountBench测试集，包含210个涵盖1-8个物体的复杂场景描述。在参数量13亿的基础模型上，原始系统的计数准确率仅为42.3%，应用NUMINA后提升至49.7%，效果超越参数规模更大的50亿模型。特别值得注意的是，在“8个物体”的高难度场景中，该技术将准确率从11.3%提升至20.7%，实现近翻倍的改进。时间一致性指标显示，修正后的视频在帧间物体数量稳定性方面也有显著提升。

消融实验验证了技术设计的关键细节。研究团队发现，在生成过程第20步截取注意力信号效果最佳，此时物体边界已初步形成但未发生过度融合。选择注意力头时，随机选取或平均化处理都会削弱效果，而NUMINA设计的三维评分体系（前景对比度、空间结构丰富度、边缘清晰度）能够精准定位所需专家模块。在物体位置计算方面，综合考虑不重叠、中心分布、帧间稳定三项约束的复合策略，比单一约束条件多带来3.2个百分点的提升。

跨架构验证表明该技术具有广泛适用性。在采用混合模态注意力机制的CogVideoX-5B模型上，NUMINA仍能带来4.2个百分点的准确率提升。与推理加速技术结合使用时，处理时间从431秒压缩至355秒，而计数准确率仅微降0.3个百分点。用户盲测显示，61%的参与者更偏好经过NUMINA修正的视频，认为其在数量准确性和画面自然度之间取得了更好平衡。

尽管取得突破，研究团队也指出当前技术的局限性。在处理“三只鹦鹉模仿口哨”等涉及物体部件的场景时，注意力机制可能将鸟头与身体误判为两个独立个体。对于“50只鸟”等超高密度场景，现有地图构建和引导策略尚未进行针对性优化。这些挑战为后续研究指明了方向，特别是在提升模型对物体整体-部分关系的理解能力方面。

这项研究为AI视频生成领域提供了重要启示：通过在推理阶段引入轻量级的理解-检测-纠偏循环，可以在不改变模型结构的前提下显著提升特定能力。这种技术路径相比重新训练大模型具有更高的性价比，特别适合资源有限的研究团队和实际应用场景。随着教育、影视等行业对精准数量控制的需求日益增长，NUMINA所代表的技术方向正在展现其现实价值。

更多>同类资讯

英伟达开始搞机器人自己研究机器人那套了…

06-21

台积电力推CoPoS技术，玻璃核心基板引领AI芯片封装新变革

06-21

端午假期上海浦东机场“机器人天团”上岗，智慧服务助力旅客便捷出行

在指引旅客提取行李方面，智慧服务机器人可在到达层不间断地巡游，更早提醒旅客，让第一次来浦东机场的旅客更快找到自己行李的方位。其中智能轮椅机器人支持候机楼指定区域内自动驾驶接驳，而且人机交互操作极致简化，旅客只…

06-21

SK海力士亮相HPED 2026：HBM4与CXL内存新品展示AI内存新布局

06-21

吉科职院具身机器人语音识别项目获奖推动职教产教融合迈向新高度

日前，2026吉林省数字经济发展促进大会暨第三届吉林省人工智能大会在长春举办，吉林科技职业技术学院人工智能产业学院携具身机器人语音识别系统应用开发项目亮相，成功获评2026吉林省人工智能及大模型典型应用案例。…

06-21

Take-Two前AI负责人发声：生成式AI热度或被夸大，恐牵连传统AI声誉

06-21

安洁科技正式进军AI眼镜领域依托技术优势推进研发与业务布局

06-21

2026湾区科技节深圳启幕人形机器人领衔尖端AI技术共绘智慧新篇

本次湾区科技节科创氛围浓厚，荣耀人形机器人“闪电”与“元气仔”在现场带来人机互动展演，凭借灵动趣味的智能表现频频获赞，成为全场焦点。店面以“前店后研”的创新运营模式，汇集两百余款前沿智能产品，全方位展示端侧A…

06-20

高通CEO安蒙展望：AI智能体助力，智能眼镜或成下一个手机级市场

IT之家 6 月 20 日消息，当地时间 19 日，据美国 CNBC 报道，高通 CEO 安蒙认为，AI智能体将改变人们使用应用和电子设备的方式。安蒙表示，未来的手机和新型设备都会围绕 AI 智能体重新设…

06-20

高通CEO安蒙：AI智能体赋能，智能眼镜或成未来消费电子新宠与手机比肩

IT之家 6 月 20 日消息，当地时间 19 日，据美国 CNBC 报道，高通 CEO 安蒙认为，AI智能体将改变人们使用应用和电子设备的方式。安蒙表示，未来的手机和新型设备都会围绕 AI 智能体重新设…

06-20

英特尔英伟达强强联手，AMD另辟蹊径，AI PC下半场谁主沉浮？

06-20

13人AI新秀挑战巨头：稀疏注意力突破或开启大模型效率新纪元

06-20

英特尔陈立武勾勒未来蓝图：全面拥抱AI，发力先进封装与材料创新

06-20

沐曦股份彭莉返交大毕业礼：分享“芯”路，寄语学子勇攀芯片产业高峰

06-20

英伟达再放大招：ENPIRE框架让AI agent自主操控机器人做研究

06-20

点击查看更多 +

全站最新

婴儿纸尿裤“甲酰胺”风波引关注多方回应中国造纸学会发声力挺企业

续航不是唯一标准！BMW X1、Cupra Terramar、雷诺Rafale三车混动对决谁称王？

宝马MINI Countryman C印度投产！约50%零部件本土化售价约34万元起

比亚迪携“大唐”强势入局高端纯电，与蔚小理正面交锋市场格局生变

零跑汽车三季度将亮“技术牌”：全域自研打基础，未来十年惊喜可期

特斯拉Cybercab原型车现身新西兰冬季测试或为海外商业化铺路

热门内容

本栏最新

科技赋能社区温情，人文引领生态共建|亲邻科技以创新服务重塑现代社区价值

零跑2027款焕新：从“堆料”到细节打磨，未来能否续写传奇？

比亚迪大唐EV上市：23万级全尺寸SUV新标杆，950km续航+29项全球第一

HDC 2026聚焦鸿蒙生态：AI赋能数字内容，携手伙伴共探商业新路径

长沙启幕！吉利银河星耀7MAX携五大豪华颠覆实力开启美好出行新篇

第十届南博会：AI智能机器人引领服务创新科技助力传统制造业升级

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.