在视频制作领域,一项新技术正悄然改变着创作的游戏规则。Pika公司近期推出的“音频驱动表演模型”,让用户仅凭音频文件和一张静态图片,就能生成高度同步的视频内容。
以往,要实现音频与视频的完美同步,即便是专业人士也需要花费大量时间和精力进行后期制作。而Pika的新模型,却能将这一过程极大简化。用户只需上传自己的音频,如语音、音乐或说唱片段,再选择一张静态图片,如自拍或任意选定的照片,系统就能自动生成一段视频中的人物与音频高度匹配的内容。这段视频中的角色不仅会精确地做出口型同步,还会展现出自然的表情变化和流畅的身体动作。
这一技术的出现,意味着任何人都可以轻松地将自己的声音与任何一张图片结合,创造出栩栩如生的视频内容。例如,你可以将一张自拍与马保国的经典台词“年轻人不讲武德”相结合,你的照片中的面孔会瞬间变得生动起来,不仅口型与音频完美同步,就连眉毛的挑动都恰到好处,仿佛真的是你本人在亲自传授技艺。
据Pika官方介绍,这一技术的平均生成时间仅需6秒,而且生成的视频质量高达720p,长度不限。这意味着,你可以让蒙娜丽莎为你唱一整首《忐忑》,或者在短时间内创作出无数有趣的短片。不过,目前这一功能仅限于iOS端,并且需要邀请码才能使用,期待未来能尽快向更多用户开放。
从网友的测评来看,这一技术的效果相当惊艳。无论是说唱部分还是歌曲部分,唇同步的准确性都非常高,避免了以往AI视频中常见的“假唱”问题。同时,人物的表情神态也非常自然,给人一种活灵活现的感觉。当然,这一技术也并非完美无缺,有时在某些细节上,如手部动作等,可能会显得有些不自然。但总体来说,这已经是一项非常令人兴奋的技术突破。
Pika官方也分享了一些用户制作的精彩视频,其中包括不同语言、不同风格的内容。这些视频不仅展示了这一技术的广泛适用性,也激发了人们对未来视频创作无限可能的想象。随着这一技术的不断发展和普及,我们可以预见,它将很快成为社交媒体上的新宠,诞生出无数有趣的Meme和创意短片。