国庆假期期间,视频生成领域迎来新一轮技术热潮,各大科技公司纷纷推出创新产品,推动行业进入全新发展阶段。OpenAI率先发布旗舰视频生成模型Sora 2,并同步推出Sora应用程序,其"Cameo(引用角色功能)"在上线首周下载量便超越ChatGPT,引发市场广泛关注。紧随其后,马斯克旗下xAI推出Imagine v0.9,以20秒内快速生成视频且全用户免费开放的特点作出回应。国内AI视频创业公司生数科技也宣布,其Vidu Q2参考生功能将于本月底正式亮相,为行业注入新的活力。
在这场技术竞赛中,"引用角色形象"成为视频生成领域的关键突破方向。Sora应用的Cameo功能和Vidu的参考生功能,均通过支持上传参考图生成视频的方式,有效解决了视频生成中的情节割裂、角色行为矛盾等问题。这种技术路径不仅提升了视频生成的可控性,还为创作者提供了更高的自由度。
作为全球"参考生视频"概念的首创者,生数科技早在2024年9月便推出了Vidu的参考生视频功能。随着Sora应用程序的落地,中美在AI视频领域的技术与产品竞争正式进入白热化阶段。Vidu Q2参考生视频功能的推出,不仅降低了普通用户的使用门槛,还满足了专业创作者及广告电商、影视动漫等To B领域对一致性、精准性和性价比的高要求。
当前,视频生成技术仍面临诸多挑战。相较于文字和图像生成,视频生成需要处理连续画面中的叙事完整性,时长增加时易出现情节断裂、角色行为不一致等问题。模型的理解能力和记忆能力限制,以及普通用户难以准确使用专业术语的痛点,进一步加剧了视频生成的可控性难题。引用角色形象的技术思路,成为解决这些问题的有效路径。
Sora App中的Cameo功能允许用户通过简短视频和音频录制,将自己或授权他人带入生成的场景中,实现角色参考。而Vidu的"参考生"功能则覆盖角色、环境、道具等更多要素,为创作者提供更高的自由度和控制力。例如,Vidu Q2支持上传最多7张照片,包括人物、物体、场景等不同组合,并在保持参考图特征的同时,更贴近用户原始输入。
在实际效果对比中,Vidu Q2参考生功能展现出显著优势。以介绍皇冠的提示词为例,Sora 2生成的视频中皇冠样式发生改变,甚至出现凭空漂浮的反常理画面;而Vidu Q2生成的视频中,主体人物始终手握皇冠,人物形象、皇冠样式及麦克风位置保持一致,眼神随皇冠移动而变化,增强了互动感。尽管Vidu Q2未生成音频,但其在主体一致性上的表现更为突出。
在另一个案例中,提示词要求"女孩闭上眼睛,身后的云朵飞舞,发出金光"。Sora 2生成的人脸与参考图差异较大,而Vidu Q2则更好地保持了与参考图人物的一致性。这些对比表明,Vidu参考生功能突破了单一角色引用的局限,实现了角色、道具、场景、特效等全要素参考,同时在主体一致性上保持领先。
据悉,Vidu Q2模型的升级将AI视频生成推向新阶段,其参考生功能在原有基础上实现了质的突破。升级后的版本在视频一致性上保持全球领先,生成速度更快,价格更优惠,且对国内用户更加友好。内测体验显示,Vidu Q2在广告电商、知识科普、宠物拟人化剧情等多个场景中均表现出色,能够满足镜头角度转换、人物动作变化等需求,生成速度仅需十几秒即可完成5秒视频片段。
例如,在广告电商类案例中,Vidu Q2成功复现了美妆博主眼睛上的亮片、使用的美妆蛋及卧室梳妆台等细节,人物运动和镜头切换时未出现变形。在知识科普类案例中,皮革纹理、工具摆放位置保持不变,镜头切换精准。在宠物拟人化剧情案例中,客厅背景、道具位置及柯基帽子均与参考图一致,镜头运镜符合提示词要求。这些案例充分展示了Vidu Q2参考生功能的实用性和创新性。
随着Vidu Q2参考生视频功能的发布倒计时开启,其将用实际表现证明中国视频大模型的技术实力和落地价值。这场视频生成竞赛不仅推动了技术的进步,也为创作者提供了更高效的工具,助力视频生成领域迈向新的发展高度。