ITBear旗下自媒体矩阵:

春节前AI圈“内卷”升级:实测Seedance 2.0,视频生成再进化

   时间:2026-02-09 18:51:35 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

春节将至,当多数行业放缓节奏时,AI领域却呈现出一片火热景象。新模型如潮水般不断涌现,丝毫没有停歇的迹象。这一时期,AI行业呈现出一种独特的现象:一方面,各大厂商在AI入口处展开激烈的营销竞争,全力争夺用户心智和使用场景;另一方面,底层模型的更新迭代速度依旧迅猛,丝毫未受影响。

厂商们心里明白,仅靠入口的包装和营销的声量,无法支撑起长期的竞争力,模型能力的持续提升才是关键所在。近期,字节跳动推出了新一代视频生成模型Seedance 2.0,将视频生成技术朝着“更可控、更连贯、更贴近真实镜头语言”的方向又推进了一步。值得注意的是,此次大版本更新距离前一代支持音视频联合生成的模型Seedance 1.5 Pro发布仅过去了两个月。

在AI领域,入口竞争与模型更新这两条线并行推进,且互不等待。为了深入了解Seedance 2.0的性能,我们对其进行了全面实测。此次实测是在“即梦”平台上使用该模型展开的。

Seedance 2.0的一大亮点是参考能力更加全面。与上一代的音视频模型Seedance 1.5 Pro相比,它对多张图片、多段视频同时参考的支持能力更强,使用起来也更加便捷。不仅如此,加强“参考视频”能力似乎已成为行业趋势,像Kimi 2.5这类通用大模型,也开始强调能够参考视频内容生成结果。

我们首先以运动品牌风格的人物模特和运动手表实物产品为素材进行测试。同时,上传了一支经典的Apple Watch官方宣传片作为参考视频。这款宣传片采用多镜头结构,包含人物镜头和产品特写,非常适合作为参考素材。在“即梦”平台上,操作十分简便,只需按照直观的提示,告知模型参考视频的镜头节奏和风格,生成新的运动手表广告,并替换主角和商品图片即可。整个流程就是选择参考视频、人物图和商品图,然后让模型生成新的广告片。

生成这类视频耗时较长,积分消耗也不低。例如,使用两张图片和一段参考视频生成一条15秒的视频,大约需要消耗近200积分。不过,成片质量相当可观。视频整体真实感强,模特在公路上跑步时的光线变化、头发反光、脸部受光等细节处理得十分到位,毫无虚假之感。而且,在没有提供完整故事结构,仅给出参考素材和目标类型的情况下,视频节奏由模型自行编排。片中主要展示的产品就是提供的手表,有两段镜头专门聚焦手表并添加了动效。画面元素基本无误,但数字和中文偶尔会出现乱写的情况,不过与上一代相比,这种“AI幻觉”现象有了明显改善。

鉴于Seedance 2.0在动效表现上的出色发挥,我们进行了更多测试。我们生成了一张新春财神抱着金元宝的图片和一张美剧风格的恶灵骑士角色图,将这两张图作为参考素材,让模型生成视频。给定的目标是先让财神出场,背后是发光的元宝和金币,接着恶灵骑士骑着摩托冲进画面,然后财神骑着摩托离开,最后闪现“新春快乐”和具体日期的画面。成片中,开头恶灵骑士部分AI感较重,但财神与道具的互动、表情变化和动作衔接比以往更加流畅。我们还发现,画面中较大的艺术字,Seedance 2.0出错的概率较低。我们也测试了画面中有多个主体且镜头逐个扫过的场景。

我们制作了一张五个小动物穿着不同礼服坐在长椅上的图片,让画面中的小动物一起跳舞拜年,镜头逐个扫过并在每个角色动作上停留,给予慢镜头和特写。这一测试主要考察模型在镜头逐个扫过时角色出场顺序的一致性,即视频中的出场顺序要与原图中小动物从左到右的顺序一致。从生成结果来看,Seedance 2.0在画面质量和整体一致性上表现不错,但经过多次尝试才得到满意版本,仍会出现熊猫和兔子位置对调等顺序问题。不过,当镜头停留在单个角色上时,毛发细节、质感和真实度,以及镜头切换都处理得较为自然。

我们还进行了更具叙事性的视频案例测试。以一张十字路口大型3D LED屏画面(里面有一只尾巴伸出屏幕的猫)和一张经典宇航员图片为参考素材,提示模型让宇航员走进十字路口,停下打开头盔面罩、戴上墨镜,看向3D LED屏里的猫并愣住,周围街道人来人往。最终生成的视频效果良好,宇航员走进路口时,周围行人和车辆的动态变化自然,没有明显错乱感。但屏幕里的猫显得有些呆滞,灵动感不足。

接着,我们以一张包含多个男性角色的Instagram风格剪贴画为素材,要求模型在保留人物和背景不变的情况下,让这些男性角色一起跳动起来。这一任务难度较大,因为以往静态生成复杂图片就容易出错,视频中让剪贴画人物动起来并互动,更容易使周围元素混乱。我们给出的提示词明确要求保留画面文字,让七个人物在搞笑、抽象的节奏下跳舞并互动。最终生成的视频与提示词相符,画面文字未被改动,七个角色之间有互动且基本同步跳舞,遮挡文字时文字也未被修改。

最后一个案例中,我们使用了一位体操运动员运动时的模糊剪影图片,提供了五张具有明显动态拖影、构图极简的参考图,要求模型保留动态拖影感觉,生成具有运动广告片质感、可直接发布到短视频平台的视频。生成效果令人满意,模型在结构和节奏上有主动安排,镜头切换自然,并非简单地将图片变成动图后硬切。即使没有提供音乐参考和提示词,生成视频的音乐与节奏也较为合拍。部分镜头还会主动给出慢镜头特写,且为了使镜头衔接自然,会对参考画面进行前后内容的补充和动作的延伸。

Seedance 2.0在叙事节奏、镜头切换以及对参考图片和视频的一致性保持方面,相比上一代音视频模型有了显著提升。然而,它也存在一些问题,比如画面中细小文字或元素在动态变化时仍会偶尔出错,不过出错频率已大幅降低。同时,单个视频生成时间长,积分消耗大。对于字节的平台而言,这有助于提升内容供给效率,因为该模型已全面应用到旗下“即梦”、CapCut(剪映)等AI内容创作平台。目前,视频生成模型已快速进入产品化和商业化验证阶段,谁能将生成质量、速度、可控性和接入成本控制在可用范围内,谁就更有可能融入真实内容生产链路。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version