滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

全新AI技术ZipMo：剥离画面“看透”运动，视频预测效率飙升

时间：2026-04-23 01:06:17 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

现代视频人工智能领域长期面临一个核心难题：预测物体运动轨迹时，现有技术总将“画面内容”与“运动模式”混为一谈。这种处理方式如同舞蹈教师既要设计动作轨迹，又要精确描述每帧服装的褶皱变化，导致计算资源浪费严重。最新研究显示，当前最先进的视频生成模型每秒仅能生成0.2帧画面，而慕尼黑大学团队提出的ZipMo技术已实现每秒2500帧的运动预测，效率提升超万倍。

研究团队创造性地将运动信息从视频中剥离，构建出独立的“运动语言”体系。这项名为ZipMo的技术通过两阶段框架实现突破：第一阶段利用变分自动编码器将64帧视频中的运动轨迹压缩为16×16的潜在网格，每个网格单元仅存储16个数字，却能完整保留运动本质特征；第二阶段基于流匹配技术训练生成模型，可根据初始场景和运动目标生成符合物理规律的运动预测。

技术验证显示惊人效果：在相同计算资源下，将时间压缩倍数从2倍提升至64倍时，运动生成质量反而提升40%，推理速度加快20倍。这种反直觉现象源于双重机制——高压缩比迫使模型剔除无关细节，同时通过语义化处理使相似运动在潜在空间自动聚合。实验表明，64倍压缩模型的kNN检索准确率较2倍模型提升近5倍，证明其学到了更本质的运动规律。

在机器人操作任务中，ZipMo展现出显著优势。测试平台LIBERO包含“打开炉灶放置摩卡壶”等复杂指令，ZipMo系统通过解析文字描述生成运动嵌入，再由轻量级策略头转化为机械臂动作。实验数据显示，其在五个子任务集上的平均成功率达77.5%，较现有最佳方法提升17个百分点。特别是在需要精准物体识别的LIBERO-Object任务中，成功率高达98%，刷新行业纪录。

与传统视频生成模型对比时，ZipMo的效率优势更为突出。面对相同场景，拥有140亿参数的Wan模型生成8个样本需1小时，而参数仅8.6亿的ZipMo仅需1秒。在“时间匹配”测试中，ZipMo生成的1万个样本覆盖了更广泛的可能运动模式，其最小均方误差（Min MSE）较Wan降低62%，较谷歌Veo 3降低70%。这种差距源于ZipMo专注运动本质，避免了视觉细节处理带来的计算负担。

该技术的工程实现同样值得关注。训练数据来自1000万个视频片段，通过TapNext追踪器提取64帧运动轨迹。VAE模型采用傅里叶嵌入和3D旋转位置编码处理轨迹点，结合全局自注意力机制实现信息融合。解码器则借鉴掩码自动编码器策略，通过隐藏部分轨迹点迫使模型学习运动规律泛化。整个系统在64块H200 GPU上训练3天即可完成，采用bfloat16混合精度训练节省显存。

实际应用场景中，ZipMo展现出强大扩展性。其密集运动推断功能可将稀疏追踪轨迹转换为全图运动场，在DAVIS 2017数据集上的最小均方误差较Motion-I2V降低30%。对追踪器选择的鲁棒性测试显示，使用不同追踪器训练的模型重建精度差异不足1%，证明其学到的是运动本质而非设备偏差。这种特性使其在视频编辑、运动转移等下游任务中具有广阔应用前景。

技术细节方面，ZipMo Planner采用24层Transformer架构，通过交叉注意力机制整合戳点条件和文字描述。在戳点控制实验中，1个戳点条件下的条件遵循误差（EPE）仅0.5，较Motion-I2V降低97%。当提供8个戳点时，模型仍能保持30.4的最小均方误差，证明其在精确控制与自由生成间的平衡能力。这种特性使其既能满足机器人操作的精确需求，也能为动画创作提供多样化运动假设。

更多>同类资讯

华为加拿大团队新突破：失真图让AI“看图”从整体到局部更精准

04-23

千万网红蓝战非回归带货成绩亮眼，从游戏达人到旅行博主的蜕变之路

04-23

鸿蒙智行四车齐发：尚界问界攻年轻市场，智界M9稳高端格局

04-23

京东“独狼”第六代智能配送车Plus版亮相：载重续航升级，L4级自动驾驶引领物流新变革

04-23

中国移动5G-A超级上行启航：千兆上行赋能新场景加速智能化升级

04-23

俞敏洪邀10名东方甄选会员2027年共赴南极，费用平台承担引关注

04-23

科技轮回：从黑窗口到AI时代，CLI复兴或开启人机交互新纪元

04-23

2025拍照手机大比拼！OPPO、iPhone等热门机型谁更胜一筹？

后置摄像头方面，标准版是强悍的三摄组合，Pro 版更是升级为四摄，2 亿像素 HP5 长焦镜头，长焦拍摄能力十分突出。综合来看，OPPOFind X9 系列在长焦、前置拍照清晰度、拍照防抖等多个方面都有出…

04-23

成本飙升行业承压，OPPO Find X9s Pro成年内不涨价旗舰“孤勇者”

但在价格上，OPPO却没有涨价。早在今年2月，三星发布Galaxy S26系列时，相比上一代已涨价1000元；荣耀MagicV6虽然守住了8999元的起售价，但16GB高内存版本也涨价近千元。在此情况下…

04-23

成本攀升压力下不涨价！OPPO刘作虎：Find X9s Pro成年内旗舰“性价比之选”

04-22

金标联盟携手vivo等厂商推进“公平运行内存机制” 助力安卓应用优化升级

04-22

AMD锐龙9 9950X3D2性能怪兽来袭华硕X870E系列主板成梦幻主机绝配

04-22

港股IPO热潮涌动：千亿市场人才告急，百万高薪难觅保代“良将”

04-22

GPT Image 2来袭：图像生成新标杆，设计师职业面临新挑战

04-22

谷歌推出Deep Research双版本智能体：赋能专业领域高效自主研究

04-22

点击查看更多 +

全站最新

钛动科技获农行百亿授信！一张对民营AI科技企业的"信心投票"

公告精选︱顾家家居：拟不超11.88亿元投资建设产业总部项目；沪电股份：一季度净利润12.42亿元同比增长62.9%

江西铜业股份(00358.HK)获贝莱德增持3.4万股

京东AI新探索：实习生挑大梁，大厂抢人从“0到1”培养开始

盒马自研一体化牛奶新包装，减纸超四成，环保与体验双提升

京东与松延动力强强联合共绘人形机器人全场景应用与普及新蓝图

热门内容

本栏最新

京东AI新探索：实习生挑大梁，大厂抢人从“0到1”培养开始

盒马自研一体化牛奶新包装，减纸超四成，环保与体验双提升

京东与松延动力强强联合共绘人形机器人全场景应用与普及新蓝图

“先爆再圆”成套路：热搜是传播利器还是信任“杀手”？

雷军官宣2026北京车展小米汽车参展阵容概念车国内首秀现场还能领车模与饮用水

雷军揭晓2026北京车展小米参展车型：SU7系列与VGT概念车齐聚首秀

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.