可灵近日宣布推出视频生成领域的2.6版本模型,标志着AI视频创作技术迎来重要突破。该模型首次实现“音画同出”功能,将声音与画面的生成流程整合为单次操作,彻底颠覆了传统AI视频制作中“先生成无声画面、再人工添加配音”的分步模式。这一创新使创作者能够直接获取包含自然语言对话、动作音效及环境背景音的完整视频内容,显著优化了创作流程。
技术升级方面,新模型重点强化了文生音画与图生音画两大核心功能。在语音支持上,目前可生成中英文双语内容,满足跨语言创作需求。视频时长方面,单次生成最长可达10秒,为短视频创作提供了更灵活的空间。据测试,模型输出的音频与画面同步精度达到毫秒级,环境音效的层次感与人物对话的清晰度均达到行业领先水平。
行业观察人士指出,此次技术迭代不仅提升了创作效率,更重新定义了AI视频的工作流标准。传统模式下,创作者需分别处理画面生成、语音合成、音效添加等环节,耗时且易出现音画不同步问题。新模型通过端到端的生成方式,将制作周期缩短60%以上,同时保证了音画质量的高度统一。目前该技术已开放内测,预计将引发短视频、广告营销等领域的创作范式变革。










