近日,快手旗下可灵AI推出了一项创新的数字人生成功能,用户只需上传一张角色图片并输入文字或音频内容,即可生成分辨率达1080p、帧率48FPS的数字人视频,最长支持1分钟时长。目前该功能已进入公测阶段,正逐步向用户开放。
这项技术依托多模态理解与视频生成模型的深度融合,实现了口型与语音的精准同步,同时支持对情绪和动作的精细控制。其核心架构采用基于Transformer的DiT模型,在处理时序信息与细节控制方面表现突出,能够准确解析面部特征、理解音频语义,并依据语音内容自动生成符合情境的面部表情和微动作,确保数字人在视频中的形象一致性。
在应用场景上,该功能支持多种角色类型,涵盖真人形象、动画角色甚至动物角色,同时兼容中文、英语、日语、韩语等多语言输入,可满足跨文化、跨领域的多样化需求。价格方面,结合会员优惠方案,单秒使用成本最低可降至0.12元。
目前,用户可通过可灵AI官方网站体验这一功能。随着技术持续优化及API接口的开放,该数字人功能有望与更多第三方平台和应用实现深度整合,逐步构建起覆盖多场景的生态体系。