生成式AI领域近日迎来新一轮技术浪潮,国产视频生成大模型可灵AI在短时间内连续推出多项突破性功能,引发行业广泛关注。其最新发布的可灵O1模型与2.6版本,通过多模态融合与音画协同技术,重新定义了AI视频创作的效率边界。
可灵O1模型的核心突破在于构建了全球首个统一的多模态创作引擎。该模型将参考生视频、文生视频、首尾帧生成等十余种任务整合至单一平台,用户无需切换工具即可完成从创意构思到成品输出的全流程。技术团队通过引入Multimodal Transformer架构与长上下文理解机制,使模型在主体一致性控制与画面细节编辑方面达到行业领先水平。内部测评数据显示,在图片参考任务中,其效果较Google Veo 3.1提升247%;指令变换任务中,较Runway Aleph优化230%。
图像生成领域同样实现重要迭代。新上线的图像O1模型支持纯文本生成与多图融合创作,用户最多可上传10张参考图进行风格迁移或元素重组。该模型通过建立从基础生成到高阶编辑的无缝衔接管道,显著降低了专业图像处理的门槛。测试案例显示,模型在复杂场景构建与细节还原方面表现突出,能够精准捕捉用户描述中的光影变化与材质特征。
12月3日发布的可灵2.6版本则聚焦音画协同技术,推出行业首个"音画同出"功能。该模型突破传统AI视频"先画面后配音"的工作模式,可在单次生成中同步输出自然语言、动作音效与环境氛围音。目前支持中英文语音生成,视频时长上限达10秒,后续将扩展至更多语种与定制化声线。技术实现上,模型通过深度语义对齐算法,使音频节奏与画面动态保持高度同步,在环境音渲染与情感表达层面达到专业级水准。
数字人技术同步迎来升级。2.0版本支持用户上传角色图像后,通过文本描述直接驱动数字人表演,最长可生成5分钟视频内容。该功能内置表情捕捉与肢体动作生成算法,能够根据配音内容自动匹配微表情变化,在广告营销、短视频制作等领域展现出强大应用潜力。某影视公司测试反馈显示,使用数字人2.0制作产品宣传片,效率较传统拍摄提升80%以上。
技术突破的背后是持续的市场验证。数据显示,可灵AI已服务超过2万家企业客户,覆盖影视制作、广告创意、电商营销等30余个行业。某头部电商平台采用其视频生成技术后,商品展示视频制作成本降低65%,点击转化率提升40%。技术团队透露,正在研发的3.0版本将重点优化长视频生成能力与多语言支持,计划引入3D空间理解技术,进一步拓展虚拟制片与沉浸式内容创作场景。
行业观察人士指出,可灵AI的密集更新标志着国产生成式AI技术进入成熟应用阶段。其通过构建统一的多模态创作底座,不仅解决了传统工具链割裂的痛点,更在创作效率与作品质量层面形成差异化优势。随着数字人、音画协同等功能的持续完善,AI技术正在从辅助工具升级为内容创作的核心驱动力。











