滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

浙大团队新成果：普通视频秒变可实时漫游的4D动态世界

时间：2026-04-16 21:55:32 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

浙江大学等机构联合研发的INSPATIO-WORLD系统，将普通视频转化为可实时交互的四维动态世界，这项突破性成果以技术报告形式发布于预印本平台arXiv。用户不仅能从新视角观察场景，还能自由移动、调整视角甚至控制时间流逝——这种曾存在于科幻电影中的场景，如今已能在消费级显卡上实现每秒十帧的实时生成。

传统视频拍摄存在天然局限：摄像机固定在特定位置和角度，观众只能被动观看预设画面。若想从舞台后方观看演唱会，或是在客厅视频中近距离观察窗边植物，现有技术均无法实现。INSPATIO-WORLD通过构建动态四维空间，首次突破了这种时空束缚，其核心目标正是解决计算机视觉领域长期存在的三大难题：空间记忆退化、视觉真实感不足和运动控制失灵。

针对空间记忆问题，研究团队设计了"时空缓存机制"。该系统采用双重记忆体系：短期工作记忆通过滑动窗口保留最近生成的帧，确保运动过渡自然；长期空间锚点则实时调用原始参考帧作为全局坐标原点，防止场景结构随生成长度增加而扭曲。这种设计使系统能准确记忆场景细节，即使经过长时间漫游也不会出现墙壁装饰变色或窗户位置错乱的情况。

为消除AI生成画面常见的"塑料感"，研究团队提出"联合分布匹配蒸馏"训练策略。系统同时向两位"教师"学习：合成数据训练的运动控制模型确保几何精度，真实视频预训练的基础模型提升视觉质感。通过交替优化这两个任务，系统在保持精确空间控制的同时，自动学习真实世界的光影变化和材质纹理，使生成画面具有电影级质感。

在运动控制方面，系统采用"几何约束机制"和"多条件因果初始化"策略。通过提取场景三维点云并重新投影，AI能准确理解新视角下的空间结构，只需填充真实纹理而非凭空想象。初始化阶段则让模型在真实数据轨迹上进行多步预演，建立历史帧、参考图像和几何约束之间的准确关联，确保后续生成既符合物理规律又保持视觉连贯性。

实验数据显示，该系统在多个基准测试中表现优异。在WorldScore-Dynamic测试中，其运动平滑度得分71.91，相机控制精度81.51，光度质量93.00，三项指标均领先同类实时交互方法。在RE10K长视频生成任务中，FID得分42.68，FVD得分100.55，轨迹误差显著低于对比模型。这些数据证明，系统在保持视觉质量的同时实现了精确的空间控制。

工程实现方面，研究团队通过多项优化使系统能在普通硬件上运行。采用轻量级Tiny-VAE替换原有编解码器，结合PyTorch图级编译优化，使1.3B参数版本在专业GPU上达到24帧/秒的实时速度，在RTX 4090上也能维持10帧/秒。训练过程分为三个阶段：教师模型训练、学生模型初始化和联合蒸馏优化，确保系统逐步掌握复杂技能。

尽管已取得突破，研究团队坦言系统仍存在局限。当前空间记忆主要依赖原始参考视频的几何骨架，对新探索区域的纹理细节记忆能力有限；处理宽视角转换时，动态元素的时空一致性仍是挑战。为此，团队计划开发更深层的语义记忆系统，探索几何结构与高维纹理特征的深度耦合，并引入更强的物理约束实现闭环仿真。

这项开源技术已引发多领域关注。机器人和自动驾驶领域可利用其从真实视频生成海量训练数据，游戏和影视行业将获得新的内容创作范式，普通用户未来或许能通过手机视频实现虚拟重游。系统代码和模型已在GitHub公开，学术社区正积极参与完善这项变革性技术。

更多>同类资讯

华为云OfficeClaw办公智能体邀测开启助力企业办公效率与安全双提升

04-16

UC Davis新研究：AI奖励模型个性化理解存大差距突破性评估工具问世

04-16

NVIDIA与伊利诺伊大学联合突破：AI视频生成解锁因果逻辑与独立运动控制

04-16

AI写作新突破：专家选择路由让扩散语言模型训练推理双提速

04-16

零跑旗舰SUV D19正式登场！增程纯电双动力，豪华配置开启大型SUV新体验

04-16

2026北京亦庄人形机器人半马排位赛启幕 300余台机器人4月19日竞速正式赛

04-16

华为云OfficeClaw办公智能体邀测开启，为企业办公效率提升注入新动力

04-16

《识质存在》深度体验：DLSS 4加持下画面与性能的完美平衡

04-16

四川高校机器人及AI大赛5月启幕搭建交流平台助力产业创新发展

大赛启动后，主办方将于近期开展各类宣讲和比赛准备工作为赛事的开展做好充分准备。民航飞行技术与飞行安全重点实验室主任潘卫军表示，学校将以本次会议为契机，搭建四川省高校的合作交流平台、搭建“校-企-产-教”融合平…

04-16

华为携手伙伴赋能交通运输：AI深度融合，共筑数智化升级新未来

立足AI技术深度融入交通运输全链条需求，华为推进技术创新与跨领域协同，树立“点—线—面—体”发展理念，从枢纽节点到路网通道，从客流服务到物流运营，华为携手行业伙伴，持续将领先的ICT技术与交通行业场景深度融…

04-16

合成数据新框架：突破传统认知，解锁AI发展新场景与新挑战

【新智元导读】最新研究提出合成数据的全新分类框架，突破「生成模型=合成数据」的传统认知，涵盖反演、仿真与数据增强等方法，并按应用层次划分为数据中心AI、模型中心AI、可信AI和具身AI。在这一框架下，最基…

04-16

2026酒仙桥论坛启幕：发布AI指数报告共绘人工智能发展新蓝图

CCF前理事长、中国工程院院士郑纬民表示，AI产业竞争核心已从“比拼算力集群规模”转向“比拼每瓦Token生产效率”，行业发展范式正从MaaS（模型即服务）向TaaS（Token即服务）跃迁。完善的算力基础设…

04-16

2026年AI数据采集新趋势：网络数据基础架构崛起成关键支撑

2026年AI行业发展已进入数据驱动的关键阶段，实时公共网络数据从竞争优势转变为企业必备能力。实时数据访问与检索、可扩展且稳定的基础架构、治理合规体系，是AI网络基础架构的三大核心支柱，其中实时数据能力被视…

04-16

2026具身智能爆发，全系列物联网卡如何筑牢工业通信升级基石？

低时延是具身智能交互的核心前提，工业智能设备需快速响应指令，避免因时延过高导致任务执行偏差，尤其是精密制造、实时巡检等场景，时延需控制在20ms以内；高可靠要求通信链路不中断、丢包率低，应对工业场景复杂环境…

04-16

日均调用量飙升超千倍：词元热潮下，产业链如何解锁新增长密码？

总台央视记者王雷：今年一季度，中国日均词元调用量突破140万亿，而这个数据在2024年只有1000亿，两年增长了就超千倍。在大模型公司“月之暗面”，记者见到了这里的企业业务负责人黄震昕，但他却几乎没有时…

04-16

点击查看更多 +

全站最新

华为云OfficeClaw办公智能体邀测开启，为企业办公效率提升注入新动力

大疆Osmo Pocket 4携双摄版登场，第四代产品分层布局满足多元创作需求

大湾区科技突破：全固态电池A样问世，2026年或实现GWh级量产

零跑D19豪华旗舰SUV正式登场！21.98万元起售，配置丰富动力强劲

速腾聚创发布"孔雀羽"预告，神秘芯片或有重大突破

3年11月！"AI+光储一体化第一股"思格新能源刷新中国企业港股IPO最快纪录，获淡马锡、高瓴等"全明星"资本加持

热门内容

本栏最新

东风与黑芝麻智能携手，国产舱驾一体平台助力全系车型智能升级

鸿蒙智行车载小艺焕新升级，变身“超级智能体”懂你所需更贴心

沃尔沃99周年庆典：袁小林直指汽车安全误区，倡导系统性平衡理念

华为携手水利部：2025水利感知网蓝皮书，引领水利行业智慧化新篇章

从华强北到开源社区：科创少年“野蛮生长”下的教育新启示

九十九载坚守安全初心，沃尔沃以创新科技续写豪华安全新传奇

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.