快手旗下可灵AI近日宣布,其首个音画同出模型已正式投入使用。这一创新模型突破了传统内容生成模式,能够在单次操作中同步生成画面、自然语音、匹配音效及环境氛围,实现视听元素的深度融合。
该模型提供两种核心创作方式:其一为文生音画,用户仅需输入简短文字描述,即可生成包含完整音视频内容的作品;其二为图生音画,通过静态图片输入,系统可赋予画面动态效果并同步生成语音,使静态内容“活”起来。
技术团队介绍,新模型通过多模态协同算法,确保语音节奏、画面运动与音效环境的高度匹配。例如在生成人物对话时,唇形动作、语音语调与背景音效均能实现自然衔接,避免传统AI生成内容中常见的音画割裂问题。
应用场景方面,该模型覆盖四大领域:单人独白场景适用于商品展示、生活记录、新闻播报等;旁白解说模式可支持赛事解说、纪录片配音等复杂需求;多人对白功能满足访谈节目、短剧创作等交互场景;音乐表演模块则支持独唱、合唱及乐器演奏等多样化表现形式。
开发团队透露,模型训练过程中采用了超百万小时的音视频数据,涵盖不同语言、口音及场景类型。通过自适应学习机制,系统能够根据用户输入的文本风格自动调整语音特征,在保持自然度的同时实现个性化表达。








