在社交媒体上浏览,不难发现,许多制作精良的视频已经不再单纯依赖于人力创作,AI技术已经悄然渗透到了这一领域。然而,对于创作者而言,尽管AI能够轻松生成美轮美奂的画面,但在对白的处理上却始终是一道难以逾越的坎。
想象一下,当你希望AI为你生成一段雨中分手的戏码,画面中的男女主角情感纠葛、雨水滂沱,但他们对白生硬、语调不自然,瞬间就将你从剧情中拉了出来。这,就是当前AI视频生成面临的最大挑战之一——如何处理包含复杂情绪的中文对白。
近日,百度发布的蒸汽机(MuseSteamer)视频模型2.0似乎正是为了解决这一痛点而来。其最大的亮点在于,这是全球首个中文音视频一体化生成技术,号称是吃“中文语料”长大的,能够一步到位地生成音画同步、口型精准、情感自然的中文对话视频。
为了验证这一技术的真实性,笔者决定亲自上阵,设计几个贴近日常创作需求的场景进行测试。从一张图开始,输入想要生成的视频内容和主题台词,蒸汽机2.0有声版便能在短短几秒内生成一段有声有色的视频。
在测试中,笔者上传了一张马斯克和奥特曼的合照,并配上提示词:“两个人针锋相对,左边的人先说,‘你做的AI毫无底线’;右边的人说,‘你的营销才是没有底线’。”生成的视频中,静态的照片被赋予了生命,两人的面部表情和肢体动作流畅自然,更重要的是,中文对白的口型同步做得相当精准,没有出现明显的延迟或错位。
不仅如此,蒸汽机2.0在处理多角色对话、方言以及复杂情感表达方面也展现出了惊人的能力。笔者尝试用东北话为甄嬛和沈眉庄配音,尽管这一组合有些奇葩,但生成的视频中,人物的表情、嘴唇的动作以及中文语音的细节还原度都非常高,真正做到了中文语境的深度适配。
除了中文对话的生成,蒸汽机2.0在电影级画质和大师级复杂运镜方面也实现了突破。在测试中,笔者提供了一张首帧图,并附上提示词:“一个镜头,从书桌上的翻开的书本特写开始,慢慢向上拉起,最终定格在窗外下着雨的街景上。”生成的视频中,整个运镜过程流畅自然,没有出现镜头乱晃或指令理解错误的问题,展现出了蒸汽机2.0对摄影术语的深刻理解。
百度蒸汽机2.0的发布,无疑为视频创作领域带来了新的转折点。它绕开了单纯比拼画质和时长的内卷,将更多力气花在了解决最本土化的问题上——让AI视频真正“开口说中国话”,而且说得比真人还溜。这一转变已经在真实的创作和商业领域得到了验证,无论是专业大神还是中小创作者与品牌方,都获得了前所未有的创作便利。
然而,蒸汽机2.0也并非完美无缺。在非对话的纯视觉特效上,生成视频的时长还有限制;在音色风格的选择上,也可以更加丰富多样。但正如所有快速迭代的AI产品一样,蒸汽机2.0选择了一条更务实、更贴近市场的路。它就像一个专注于把钉子敲好的锤子,虽然不能刨木头,但在“敲钉子”这件事上,它确实做到了极致。
看着AI生成的角色在屏幕前侃侃而谈,那种真实感让人不禁感叹。工具终将隐形,而创意永远闪耀。蒸汽机2.0所做的,就是将那个曾经无比昂贵、属于少数人的导演梦,还给了每一个有话想说的人。现在,我们已经不缺好的工具,只是缺少新鲜的创意;而与众不同的创意,往往源自于不断的尝试和探索。