可灵数字人迎来重大升级,其全新2.0版本现已面向所有用户开放使用。用户只需完成上传角色图像、输入配音文本、设定角色表现三个简单步骤,即可快速生成具备专业表演能力的数字人视频内容。
此次升级在原有功能基础上实现了三大技术突破。新版本不仅强化了数字人的表情表现力,更通过深度优化算法实现了手部动作与口型同步的精准控制。在内容时长方面,单段视频生成上限从1分钟延长至5分钟,为创作者提供更广阔的叙事空间。升级后的系统能够智能解析文本语义,自动匹配符合情境的肢体语言、表情变化和镜头运动,使数字人呈现更具感染力的情绪表达。
回顾该功能的发展历程,今年9月首次推出的数字人生成系统已具备行业领先水平。当时的技术方案通过单张角色图片与文字/音频输入,即可生成1080p分辨率、48帧率的视频内容。其核心优势在于采用Transformer架构的DiT模型,该模型在时序信息处理和细节控制方面表现突出,能够精准捕捉面部特征变化,实现口型与语音的毫秒级同步,同时根据语义内容自动生成匹配的微表情和肢体动作,确保数字人形象在视频全程保持高度一致性。
技术团队透露,此次升级着重优化了动作生成模块的算法复杂度,通过引入更精细的骨骼控制参数,使手部动作的生成精度提升40%。在口型同步方面,新系统采用多模态融合训练方法,将语音特征与面部肌肉运动数据联合建模,使口型匹配准确率达到98%以上。这些技术突破使得数字人能够胜任新闻播报、产品解说、剧情短片等多样化场景的应用需求。











