曾经,AI视频生成领域宛如一场充满不确定性的“抽卡游戏”。创作者输入一段提示词,点击生成按钮,满心期待地等待模型输出几秒钟的画面。若生成的画面惊艳,便满心欢喜地留下;若不尽如人意,就只能修改提示词,再次尝试,如同在赌场中不断摇骰子,祈求下一次能得到理想的结果。这种模式下,模型给出的往往只是一张张“一次性”的卡片,难以成为创作者后续创作的可靠素材。
“抽卡”模式最让人苦恼的并非画面不够逼真,而是其不可控性。创作者期望得到一个九分的成片,可模型给出的却是十个各有七八分却彼此不搭的片段。创作者无法与模型进行细致沟通,无法要求“这个镜头别动,只把人物的动作换一下”,只能一次次重新生成,赌下一个结果会更好。这种不确定性极大地限制了创作者的发挥,也让AI视频生成难以真正融入专业的创作流程。
不过,这一局面在近期发生了显著变化。近一两个月,多款新的视频模型如雨后春笋般涌现。这些模型在产品形态、技术路线和面向的市场上各不相同,但它们都传递出一个一致的信号:竞争的重点不再是谁能一次性生成更好看的视频,而是谁生成的内容能够被持续修改、控制和复用。这意味着AI视频正从单纯的出片机器,逐渐转变为一套实用的生产工具。
在AI视频“可编辑”的探索中,谷歌和Runway表现尤为突出。Runway推出的Aleph 2.0,主打基于原视频语境进行修改的能力。它不再将每次生成视为从零开始,而是能够识别素材内容,在理解原片的基础上进行局部改动,避免了动辄推倒重来的情况。谷歌的Gemini Omni则另辟蹊径,采用对话式的继续编辑方式。创作者可以像与人聊天一样,一句句提出要求,让模型在上一版的基础上逐步修改,无需每提一个新需求就重新生成。
以Gemini为例,当要求它生成一段具有广告质感的视频,画面中有一只白色陶瓷杯放在木桌上,镜头缓慢推进,杯子旁边有一本笔记本和一支黑色钢笔,背景是普通工作室,且有自然日光和真实手机拍摄感时,第一轮生成的效果就已令人满意。画面主体明确,镜头推进也符合需求,但整体看起来并不像广告片。此时,只需直接让Gemini基于这段素材,对画面进行进一步调整,如给杯中咖啡增加细微热气、在杯壁加入柔和高光等。不难发现,杯子、钢笔、笔记本以及背景场景都保持不变,改变的只是咖啡出现的时间、运镜手法和热气效果。这正是AI视频从生成走向编辑的中间状态,创作者开始像导演一样给出修改方向,虽然模型还不能像剪辑软件那样精确服从,但它已不再是单纯的“抽卡”工具。
除了谷歌和Runway,国内的可灵O1和Seedance 2.0也在“可编辑”方面进行了深入探索。可灵O1的思路是将生成、修改、参考、风格重绘、镜头延展等一系列功能整合到一个引擎中。创作者无需在多个工具之间来回切换、导入导出,大大减少了创作过程中的内耗。这种一站式创作平台的理念,为创作者提供了更加便捷、高效的创作环境。
Seedance 2.0则聚焦于多模态。它将文字、图片、视频、音频都作为参考输入,用于增强参考生成、视频延展和音画同步。视频不仅仅是会动的画面,还包括画面、动作、声音和节奏等多个要素的协同。Seedance将声音和动作纳入可控范围,提醒人们视频模型不能仅仅局限于画面生成,还需要理解节奏,知道剪辑的时机。这种多模态的探索,为AI视频的发展开辟了新的方向。
随着AI视频进入“可编辑时代”,创作者在整个工作流中的角色也发生了变化。过去,优秀的视频创作者依靠剪辑、调色、转场、配乐等手上功夫,一帧帧地打造出自己的风格。如今,虽然这些能力依然重要,但当模型能够理解“保留这个运镜,只把质感往广告片靠”这样的要求时,真正拉开差距的将是创作者的“导演模型”能力,即是否能够准确描述镜头、控制节奏、判断哪些部分需要保留或推倒重做。
视频生产的重心正在从“素材加工”转向“意图调度”。过去,创作者需要亲手将素材拼接成成片;未来,他们将更多地告诉模型自己想要什么、不要什么以及当前版本还存在哪些不足。这种调度能力是有门槛的,能够将模糊的创意拆解成模型能够理解的镜头语言,并准确判断模型输出结果的可用性和改进方向的人,将成为未来的“模型导演”。
回顾历史,每次新工具的出现都会引发人们对工作被取代的担忧,但实际上,工具升级真正淘汰的是工作中最机械的部分。例如,电子表格软件的出现让会计从繁琐的计算中解放出来,转而专注于做模型、看趋势和提供决策建议;非线性剪辑软件的普及让剪辑师从体力劳动中抽身,将注意力放在节奏、叙事和情绪等更高层次的判断上。同样,AI视频的发展也不会让创作者沦为只会写提示词的工人,而是会推动他们向更具创造性和决策性的方向发展。创作者最值钱的能力,正在从“把软件用得多熟”转变为“把模型调度得多准”。










