ITBear旗下自媒体矩阵:

谷歌DeepMind新突破:AI视频通过“力提示”模拟逼真运动

   时间:2025-06-04 09:18:26 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

近期,科技界传来了一项引人注目的创新消息,谷歌DeepMind团队与布朗大学携手,为视频生成领域带来了一项名为“力提示”的突破性技术。这项技术能够在不依赖3D模型或物理引擎的前提下,生成极为逼真的动态效果。

通过“力提示”技术,用户只需简单指定力的方向和强度,即可操控AI生成的视频内容。这项技术支持全局力和局部力两种类型,全局力如风吹过整个画面,局部力则像是特定点的敲击。这些力以矢量场的形式输入系统,随后被转化为自然且流畅的运动。

研究团队基于CogVideoX-5B-I2V视频模型,融入了ControlNet模块来处理物理控制数据。信号通过Transformer架构生成视频,每段视频包含49帧,整个训练过程仅使用了4台Nvidia A100 GPU,并在一天内完成。

尤为训练数据完全由合成数据构成。全局力数据涵盖了1.5万段不同风力下旗帜飘动的视频,而局部力数据则包括了1.2万段滚动球体和1.1万段花朵受冲击反应的视频。

在视频生成过程中,当文本描述中加入“风”或“气泡”等物理术语时,模型能够自动建立起正确的力与运动关系。训练样本结合了文本提示、起始图像和物理力,全局力以完整矢量场形式呈现,局部力则以方向、位置和强度的动态信号形式存在。为了增加多样性,背景、光线和视角都被随机化处理。

尽管训练数据相对有限,但模型展现出了令人惊叹的泛化能力。它能够适应新物体、材质和场景,甚至掌握了简单的物理规则,例如在同一力度下,轻物移动的距离会比重物更远。

在用户测试中,“力提示”技术在运动匹配度和真实感方面表现优异,超越了纯文本或运动路径控制的基准模型,甚至在某些方面超过了依赖真实物理模拟的PhysDreamer,仅在图像质量上略逊一筹。然而,在复杂场景中仍存在一些缺陷,例如烟雾有时会无视风力,人体手臂的移动偶尔显得像布料一样不自然。

DeepMind的首席执行官Demis Hassabis近期表示,新一代AI视频模型(如Veo 3)正在逐步理解物理规则,不再局限于文本或图像处理,而是开始表征世界的物理结构。他认为,这是通向更通用AI的关键一步,未来AI或许将不再仅仅依赖数据,而是能够在模拟环境中通过经验进行学习。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version