近日,Soul App旗下的AI团队Soul AI Lab宣布正式开源其自主研发的实时数字人生成模型——SoulX-FlashTalk。这一模型凭借140亿参数的强大算力,在生成速度、画面流畅度以及视频稳定性方面实现了显著突破,为行业提供了可商业化的实时生成式数字人解决方案。该模型的推出,不仅解决了传统数字人技术在实时交互中的延迟问题,还为电商直播、短视频制作、AI教育等多个领域带来了新的可能性。
SoulX-FlashTalk的核心优势在于其超低的生成延迟和高效的画面输出能力。据测试,该模型的首帧视频输出延迟仅为0.87秒,达到了亚秒级水平,同时支持每秒32帧的高帧率输出。这一性能使得数字人在视频通话、直播弹幕互动以及智能客服等场景中能够实现即时响应,彻底消除了传统大模型生成过程中的滞后感。模型搭载的14B超大DiT架构经过深度优化,推理吞吐量远超直播所需的25fps标准,确保了画面的丝滑流畅。
针对数字人长视频生成中常见的面部不一致和画质下降问题,SoulX-FlashTalk引入了独家自纠正双向蒸馏技术。该技术通过多步回溯自纠正机制,实时修正长序列生成中的误差,实现了无感纠错且画质无损。同时,模型保留了双向注意力机制,使得每一帧的生成都能参考过去和未来的上下文信息,从而有效抑制身份漂移,确保数字人在超长直播中的口型、面部细节以及背景保持高度一致。该模型还突破了传统数字人仅面部对口型的局限,支持音频驱动的全身动作生成,能够精准呈现手部细节,动作灵动且身份一致性高达99.22%。
在技术实现上,SoulX-FlashTalk采用了两阶段训练策略以平衡生成质量与速度。第一阶段为延迟感知时空适配,通过动态长宽比分桶微调优化模型性能;第二阶段为自纠正双向蒸馏,利用DMD框架压缩采样步数并移除CFG,同时结合多步回溯自纠正与随机截断策略,高效优化显存使用。团队还打造了全栈加速引擎,通过混合序列并行、算子级优化以及3D VAE并行化等技术,大幅提升了推理速度,最终实现了亚秒级延迟。这一系列技术创新使得SoulX-FlashTalk在保持高效运行的同时,能够生成高质量的数字人视频。
在TalkBench-Short与TalkBench-Long数据集的测试中,SoulX-FlashTalk的表现全面领先行业主流模型。在短视频评测中,其ASE评分达到3.51,IQA评分达到4.79,口型同步Sync-C为1.47;在长视频生成中,Sync-C评分提升至1.61,且长短视频均能稳定维持32fps的高帧率输出。基于这些优异性能,SoulX-FlashTalk可广泛应用于电商7×24小时AI直播、短视频制作、AI教育、NPC交互以及AI客服等场景,有效解决传统数字人直播中画质模糊、口型错位等问题,同时降低运营成本。
值得一提的是,此次开源并非Soul AI Lab的首次尝试。此前,该团队曾开源语音合成模型SoulX-Podcast,并在HuggingFace TTS趋势榜上登顶,GitHub星标数超过3100。此次SoulX-FlashTalk的开源,标志着Soul在AI技术开源领域迈入了新的阶段。未来,Soul AI Lab将继续推进技术开源,与全球开发者共同构建AI+社交的生态系统。










