ITBear旗下自媒体矩阵:

快手可灵3.0系列AI模型开启超前内测 图片视频生成能力全面进阶

   时间:2026-01-31 17:06:09 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

快手公司近日宣布,其自主研发的新一代视频生成模型可灵3.0系列已进入超前内测阶段。该系列包含图片3.0、视频3.0及视频3.0 Omni三个子模型,在原有技术基础上实现了多项突破性升级,旨在为影视创作、广告设计等领域提供更专业的生成式AI解决方案。

图片3.0模型的核心升级聚焦于专业创作场景的适配性。通过引入视觉思维链(vCoT)技术,该模型可对输入图像进行结构化解构推理,支持单图或多图批量生成逻辑连贯的系列画面。输出分辨率方面,新增2K与4K选项,满足影视预演、场景设定等高精度需求。针对AI生成内容常见的细节断裂问题,研发团队通过Deep-Stack视觉信息流机制优化了纹理与光影的过渡效果,同时强化了对构图比例、镜头视角等参数的控制精度,使生成画面更符合专业创作规范。

在模型训练环节,快手创新性地采用强化学习框架,结合"真实感"与"电影质感"双重评估体系,通过数百万组专业影视素材的对比学习,显著降低了生成内容的机械感。技术文档显示,该模型在人物面部特征、物体材质等细节还原上已达到行业领先水平,特别在复杂光影场景下的表现力较前代提升40%以上。

视频3.0模型则构建了统一的多模态训练框架,支持文本、图像、视频片段的混合输入。单次生成时长扩展至15秒,并允许用户在3-15秒区间自由调整。智能分镜系统成为最大亮点,该系统可自动解析文本指令中的场景转换需求,智能调度特写、中景、全景等景别切换,配合动态机位调整功能,使生成视频具备专业分镜脚本的叙事逻辑。

针对影视创作中的核心痛点,视频3.0模型在主体一致性控制方面取得突破。通过多图/视频锚定技术,用户可锁定特定角色的面部特征、服装细节或物体形态,确保在复杂运动场景中保持视觉连贯性。音画同步模块新增五国语言及方言支持,采用深度神经网络实现口型与语音的毫秒级匹配,在多人对话场景中可精准区分角色发声,文字生成模块则通过超分辨率技术确保字幕清晰可辨。

作为高端版本,视频3.0 Omni引入视频主体特征库功能,可提取3-8秒视频中的角色形象、动作特征及音色数据,建立可复用的数字资产库。该技术通过特征解耦重组方案,实现形象、声音、动作的分离存储与灵活调用,为影视IP开发、虚拟偶像运营等场景提供技术支撑。音频处理方面,创新性的采样区间调整算法使音色还原度提升至92%,在跨语言内容生成中仍能保持声线特征稳定。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version