当新技术遇上老难题
如果给2025年下半年的AI行业选一个受关注的方向,视频生成几乎是绕不开的答案。在OpenAI发布Sora 2并上线App版本后,AI视频的热度几乎以“病毒式”的速率在全球范围内迅速扩散开来。
但梳理产业发展的脉络,才会发现,这并非是偶然的产品爆红。背后,是过去两年里视频生成技术在画面质量、时序建模与可用性上的持续进步。Sora、Veo、通义万相,无论是大公司还是创业公司,不断累加的技术贡献,让全球AI视频相关能力的迭代节奏显著加快。
更深层的影响,正在产业内部逐步显现。
当模型的进步不再局限于画面质量本身,而是逐步覆盖叙事能力、人物与风格一致性、音画同步、跨镜头逻辑延续等更接近工业化生产的关键要素。当生成效果跨过“能看”的门槛,开始接近“可用”“好用”,AI视频才真正进入大众视野,也随之成为当前极具想象空间的赛道之一。
与此同时,视频行业本身也在面临着一种结构性难题。
过去十余年里,围绕视频展开的产业始终是全球范围内增长最快、资本最密集、创新最活跃的领域之一。从影视娱乐、广告营销,到电商内容、社交平台与创作者经济,视频逐渐成为信息、娱乐与商业的核心表达形态。但随着行业成熟与竞争加剧,内容生产被推向极限。短剧、电商与广告进入“更快、更细、更大量”的阶段,内容更新周期被压缩到小时级甚至分钟级,而传统制作链路所依赖的人力规模与制作周期,开始与这种节奏形成明显错位。
这种压力在不同领域以不同形式显现:传统影视与广告仍高度依赖经验密集型人力,提案与试错成本居高不下;MCN与电商侧对高频、碎片化素材的需求,已远超传统拍摄与剪辑流程的承载能力;短剧与AI漫剧在走出早期粗放阶段后,对角色、场景与镜头一致性提出更高要求;出海内容则同时面临速度与跨文化适配的双重挑战。
随着内容需求持续放大、AI视频生成能力快速成熟,内容产业的生态结构开始发生变化。
一方面,创作门槛被显著拉低。视频不再只是少数专业团队才能稳定产出的内容形态,个人创作者与小团队开始具备接近工业化的生产能力。
另一方面,围绕视频生成的新中间层正在出现——从创作工具、工作流平台,到面向广告、电商、短剧的垂直解决方案,越来越多公司开始将AI视频作为底层能力重新设计产品形态。
这带来了更多连锁反应,比如平台与创作者的关系也在被重塑,当内容成为可以反复生成、快速验证、持续优化的过程性资产,视频生产从一次性创作,逐步转向可规模化运行的系统工程。
因此,最近这一年,国内外涌现出大量围绕AI视频生成的产业链上下游的创业公司:有的从视频生成能力本身出发,重构视频制作的起点;有的围绕创作者工作流,将AI融入脚本、分镜与剪辑;还有的面向企业与行业场景,强调稳定性与可规模化交付;出海方向,跨语种与本地化生成也成为重要突破口。
当技术突破与国内的规模化需求在同一时间点汇合,内容行业逐渐形成一个清晰判断:AI视频生成已经成为下一代内容基础设施的重要组成部分,更稳定的技术和更快的工具远远不够,创作者们需要的可能是一套更底层、可扩展的生产力方案。
创作的边界,正被技术撕开
每家公司都在用自己的实际行动回应这个趋势。
以OpenAI的Sora为代表,其策略更偏向通用能力展示:通过极高质量、强视觉冲击力的视频生成,迅速打开公众认知,推动AI视频进入大众文化与社交传播场景。Google的Veo,则延续其在多模态与生成模型上的研究优势,强调模型在长时序理解与复杂场景中的表达能力,更多体现为技术能力的前沿探索。
国内,更多公司从平台生态出发:有的将视频生成能力与内容分发、创作者体系和推荐机制相结合,试图把AI视频纳入既有的创作—传播闭环;有的将生成能力赋能给视频生产全流程,提升内容供给效率。
这些路径各有侧重:有的优先解决“能不能生成、生成得好不好看”,有的更关注“怎么玩、怎么传播”。还有另一条逐渐显现的路线,则是将视频生成视为一种生产力能力。
而路径之间的差别,本质上是基于各家对好用还是好玩、B端还是C端的认知差异。
在C端场景中,AI视频更多承担的是娱乐与表达功能,“好玩”“新鲜”“个性化”往往优先于稳定性,用户对偶发的不一致与失控具有更高容忍度;而在广告、电商、短剧等B端场景中,创作者与企业真正关心的,是镜头、人物与风格能否长期保持一致,内容是否可控、可复用,并能够在高频、高并发的生产节奏中稳定输出。
这也是当前市场中一个容易被忽视的分野:许多视频模型已经能够满足C端的尝鲜与创作需求,却难以支撑B端对确定性与规模化的要求;而如果无法进入B端生产流程,AI视频能力就很难真正转化为生产力提升。
阿里选择了一条更难,但也更能给整个行业带来价值的路——将AI视频生成做成行业级的基础设施。12月17日,在阿里云飞天发布时刻上正式商业化发布通义万相2.6(Wan2.6)。作为阿里在视频生成领域的核心模型,万相试图回应内容行业从能生成走向可生产、从尝鲜使用迈向规模化落地的趋势变化。
通义实验室产品负责人金璐瑶从多个维度向我们拆解了创作者在实际生产中最为关切的多镜头叙事、视频参考生成与更稳定的长时序输出等能力,以及这些需求如何反向塑造模型能力的演进方向。
要让AI视频真正进入生产流程,首要前提是具备多镜头叙事能力。
在真实的视频创作中,单个画面的质量从来不是最难的问题,真正的挑战在于跨镜头的连续性——角色是否稳定、场景是否连贯、时间与叙事是否成立。早期的视频生成模型更擅长生成孤立的高质量片段,一旦进入多机位、多景别的创作场景,人物细节漂移、动作逻辑断裂、信息不一致等问题便会集中显现,这也是AI视频长期停留在概念演示或单镜头素材阶段的重要原因。
在Wan2.6中,多镜头能力被提升为模型层面的核心能力。相比“逐段生成、事后拼接”的路径,通义万相更强调在生成过程中对时间轴与镜头语言的整体建模:模型需要在一开始就明确“主体是谁”“空间如何变化”“叙事如何推进”,镜头切换才可能成为一个可控变量。为此,万相在训练与推理阶段持续强化主体一致性与时序建模,并支持自然语言分镜指令,让创作者能够通过提示词直接完成多镜头叙事调度。
这让视频生成具备了接近工业化生产所需的连续性基础。
“在视频生成中,时长始终是一项需要谨慎权衡的变量。”金璐瑶补充。
过短的视频难以承载完整表达,而一旦时长拉长,模型在一致性、时序稳定性上的难度会迅速上升。行业中,大多数视频模型仍将稳定生成时长控制在4秒左右,再多一秒,技术挑战往往呈指数级增长。
Wan2.6将可控生成时长稳定在约15秒,并支持1080P输出与声画同步。对广告、电商展示、短剧分镜等商业场景而言,15秒既能承载完整叙事,又不会显著放大修改与控制成本,是一段“刚好可用”的内容长度。
这次Wan2.6的发布中,文生图能力也迎来了同步升级。模型在基础生成之外,引入了对叙事结构的理解,支持图文混排输入,从简单提示中自动拆解故事并生成分镜画面,大幅提升故事型内容的创作效率。结合多图参考与商业级一致性控制,文生图开始从“灵感草图”走向可直接用于广告与内容制作的生产工具。
在满足创作者最基本的生产需求之外,通义万相还试图进一步向前迈一步——继续探索如何通过模型能力的持续演进,拓展创作的边界,让AI在表达、美学与叙事层面承担更具主动性的角色。
“中式美学是万相一直在坚持的理念。”金璐瑶告诉我们。在中文语境与中式美学上的持续投入,是万相区别于许多海外模型的重要特征。通过与美院等机构的合作,以及在预训练与评测阶段引入大量中式审美素材,模型在人物气质、风格表达与文化细节上的表现更贴近本土创作需求。这种优化并非一次性完成,而是通过评测体系、客户反馈与强化学习不断迭代。
真实需求不断抬高对技术能力的要求,而技术细节的持续突破,又反过来释放出新的生产效率,通义万相正是在这样的反馈循环中演进。正如通义实验室产品负责人金璐瑶所说:“我们一直坚持一件事情,就是效果好大于一切。”
当效率提升,当周期缩减,
当人员不再冗余
不用太久,一年,甚至只是半年之前,视频与影视制作相关行业的从业者,大多还难以想象自己的工作效率可以被成倍提升。
效率提升,是内容生产方式重构的直接结果。在传统制作体系中,创意、执行与后期被拆分为多个线性环节,每一步都需要由特定岗位承接。在高度分工的模式下,流程只能顺序推进,往往需要前一环节完全落实后才能进入下一步,既拉长了整体制作周期,也造成了大量重复与冗余的人力投入。
而当AI视频生成开始介入创作前端,许多原本需要跨岗位协作才能完成的工作,被压缩进同一个创作界面之中。编剧、导演、剪辑、美工……过去传统岗位的边界,在慢慢变得模糊。脚本可以直接转化为分镜,分镜可以快速生成可视化素材,剪辑与美术调整也不再依赖漫长的后期流程。岗位之间的交接成本被显著降低,创作者开始更多地围绕最终效果进行整体判断,而不是各自守在固定工序上。
这进一步带来的变化是,当内容生产从线性流程,转向以模型为核心的并行与即时生成,效率提升并不会平均分布在所有人身上。最先发生变化的,往往是那些本身就承受着高频产出压力、对成本和周期高度敏感的场景。
这类场景的共同是:一方面要保证持续、规模化生产内容;另一方面其创意需要被快速验证、反复迭代。因此,AI视频带来的效率提升,往往最先影响短剧、漫剧、电商内容、出海创作工具等领域。
以广告和电商为例,过去一次完整的创意验证,往往需要经历脚本、分镜、拍摄、后期等多个环节;而在引入视频生成能力后,创作者可以更早地把想法转化为可视化内容,用于内部讨论、客户提案或A/B测试。AI参与到创意形成的前端阶段,显著压缩了从想法到内容的距离。
而当稳定、可规模化的视频生成能力向外开放,新的工具平台、创作社区与内容服务开始生长,创作者能够置身于一个不断自我扩展的AI创作生态之中。而这一点,恰恰是许多视频生成能力提供商尚未充分意识到的。
在AI漫剧与短剧领域,巨日禄是目前最具代表性的实践者之一。巨日禄是一家面向动漫制作方的AI短剧/漫剧工具平台,已被大量内容方用于漫剧创作并在主流平台落地应用。
通过场景化调用通义万相模型,巨日禄将图片与视频生成能力嵌入创作工具链,大幅降低了AI在内容生产中的使用门槛。
在巨日禄创始人杰夫看来,通义万相2.6在主体一致性、指令遵循、运镜与人物表现上的稳定性,“让我们可以全天候、规模化使用”。巨日禄agent也已从创新实验转变为可直接投产的爆款剧创作智能体,效率再提成5-8倍。
成立于2016年的乐我无限,是一家以出海为核心方向的社交与内容产品公司,近年来将业务延伸至AI视频与创作工具领域,面向海外市场推出了多款视频创作工具。
其中,万相模型的多模态生成能力让旗下创作平台Ima Studio (www.imastudio.com)能够支持海外创作者快速生成高质量、风格多样的AI视频内容,显著提升了社区内容密度与创作质量。这一能力也帮助乐我在冷启动阶段吸引了海外KOL、艺术家等核心创作者,并通过硅谷线下Workshop、高校合作等方式,逐步构建起“技术—内容—社区”的正向循环。
乐我无限与巨日禄的实践表明,以通义万相为代表的稳定型AI视频基础设施,正在显著降低小团队乃至个体创作者的创作门槛。原本依赖多岗位协作完成的工作,被逐步内化为模型能力,使创作者能够在有限人力条件下,仍然维持稳定的叙事质量,并持续输出成体系的内容。
只有当底层效果足够可靠,AI视频生成才能从“好玩”走向“好用”,并在此之上,为更大的创作自由与产业创新留出空间。
人人都能当导演的时代
从好玩走向好用,真正的分水岭,在于它是否能够进入稳定、可重复的生产流程。
企业和创作者更关心的是:生成结果是否可控、是否稳定、是否能减少反复抽卡和人工返工的成本。相比速度或单次惊艳效果,稳定性才是进入生产流程的前提。
从创作者视角看,他们同时还需要更完整的服务体系。依托阿里云的大模型服务与应用开发平台百炼,万相并不是一个孤立的生成工具,而是可以被嵌入到企业既有的内容生产与业务流程中。
这些能力能够在真实场景中保持稳定可用,与阿里云长期作为产业级基础设施所积累的工程能力密切相关。作为全球领先的全栈人工智能服务商,阿里云在算力供给、数据治理、模型服务以及大规模并发调度等方面积累了成熟体系,使视频生成模型得以在真实生产环境中持续运行,而不只是停留在实验室或小规模演示阶段。
从更长的时间尺度看,阿里对人工智能的系统性投入可以追溯到十多年前。早在2010年代初,阿里就开始围绕搜索、推荐、语音与计算机视觉等方向布局AI能力;2016年起,阿里巴巴内部陆续成立人工智能实验室在机器学习、计算机视觉、自然语言处理、多模态等方向持续投入。正是在这样的技术积累之上,阿里云逐步构建起从模型训练、部署到服务化调用的完整链路。
长期专注、搭配产业服务、稳定基础设施的组合,使得以通义万相为代表的模型和服务能够沿着既定技术路线持续演进,在稳定性、可控性与规模化能力上不断逼近真实生产需求,不断提升创作者的生产力效率。
过去,镜头语言、叙事节奏、美术风格与制作经验,高度集中在少数专业团队之中;而当这些能力被逐步编码进模型,创作者所需要掌握的,正在从具体技法转向判断、创意与取舍本身。这意味着,任何有创意的人,都可以通过AI视频生成的技术和服务,实现自己的内容创作,不再由“是否会用专业工具”决定。
这种变化的意义,类似于从专业级影像软件走向大众化创作工具的历史拐点——正如数码相机取代胶片、智能手机取代专业相机、模板化剪辑取代复杂后期一样,AI视频生成正在把一整套专业制作能力,压缩为可被普通人调用的基础设施。
在降低门槛的同时,创作这件事本身也将具备更大的规模与更长的生命力。
或许,视频生成的终点并不是替代创作者,而是让创作者把精力更多投入到真正有价值的部分——创意、叙事与判断本身。











