快手公司今日正式对外宣布,其自主研发的新一代视频生成模型可灵3.0系列已进入超前内测阶段。该系列包含图片3.0、视频3.0及视频3.0 Omni三个子模型,在原有技术架构基础上实现了全面升级,重点优化了专业创作场景的适配能力。
图片3.0模型推出四项核心功能改进:首次支持通过单张或多张参考图批量生成逻辑连贯的系列画面,输出分辨率提升至2K/4K级别,满足影视预演、场景设计等高精度需求;通过视觉思维链技术强化场景解构能力,配合Deep-Stack视觉信息流机制显著提升纹理细节与光影效果的呈现质量;新增构图参数控制模块,使镜头语言、视角切换等创作要素的调节精度提升40%。技术团队透露,该模型训练中引入强化学习框架,采用真实感与电影质感双维度评估体系优化输出效果。
视频3.0模型构建了统一的多模态训练框架,支持文本、图像、视频片段混合输入,单次生成时长扩展至15秒并支持3-15秒灵活设置。创新研发的智能分镜系统可自动解析文本指令,完成景别切换与机位调度;主体一致性控制模块通过多图/视频锚定技术,确保角色形象在长镜头中的稳定呈现;音画同步引擎实现中英日韩西五国语言及方言的精准口型匹配,并支持多人场景下的角色定向发声;文字渲染模块特别优化了招牌、字幕等信息的清晰度,确保在动态画面中保持可读性。
作为专业级解决方案,视频3.0 Omni版本新增视频主体特征库功能,可提取3-8秒视频中的角色形象与音色数据,经特征解耦重组后应用于新内容创作。技术文档显示,该版本通过优化多模态指令解析架构,调整音频采样区间处理方式,实现了更高精度的跨模态内容生成。据内部测试数据显示,新模型在影视级画面生成效率上较前代提升65%,专业用户创作周期平均缩短3个工作日。











