滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

Soul开源SoulX-FlashTalk：14B模型助力数字人亚秒级生成与全场景应用

时间：2026-05-21 16:43:31 来源：天脉网编辑：快讯 IP：北京 发表评论无障碍通道

近日，Soul App旗下的AI团队Soul AI Lab宣布正式开源其自主研发的实时数字人生成模型——SoulX-FlashTalk。这一模型凭借140亿参数的强大算力，在生成速度、画面流畅度以及视频稳定性方面实现了显著突破，为行业提供了可商业化的实时生成式数字人解决方案。该模型的推出，不仅解决了传统数字人技术在实时交互中的延迟问题，还为电商直播、短视频制作、AI教育等多个领域带来了新的可能性。

SoulX-FlashTalk的核心优势在于其超低的生成延迟和高效的画面输出能力。据测试，该模型的首帧视频输出延迟仅为0.87秒，达到了亚秒级水平，同时支持每秒32帧的高帧率输出。这一性能使得数字人在视频通话、直播弹幕互动以及智能客服等场景中能够实现即时响应，彻底消除了传统大模型生成过程中的滞后感。模型搭载的14B超大DiT架构经过深度优化，推理吞吐量远超直播所需的25fps标准，确保了画面的丝滑流畅。

针对数字人长视频生成中常见的面部不一致和画质下降问题，SoulX-FlashTalk引入了独家自纠正双向蒸馏技术。该技术通过多步回溯自纠正机制，实时修正长序列生成中的误差，实现了无感纠错且画质无损。同时，模型保留了双向注意力机制，使得每一帧的生成都能参考过去和未来的上下文信息，从而有效抑制身份漂移，确保数字人在超长直播中的口型、面部细节以及背景保持高度一致。该模型还突破了传统数字人仅面部对口型的局限，支持音频驱动的全身动作生成，能够精准呈现手部细节，动作灵动且身份一致性高达99.22%。

在技术实现上，SoulX-FlashTalk采用了两阶段训练策略以平衡生成质量与速度。第一阶段为延迟感知时空适配，通过动态长宽比分桶微调优化模型性能；第二阶段为自纠正双向蒸馏，利用DMD框架压缩采样步数并移除CFG，同时结合多步回溯自纠正与随机截断策略，高效优化显存使用。团队还打造了全栈加速引擎，通过混合序列并行、算子级优化以及3D VAE并行化等技术，大幅提升了推理速度，最终实现了亚秒级延迟。这一系列技术创新使得SoulX-FlashTalk在保持高效运行的同时，能够生成高质量的数字人视频。

在TalkBench-Short与TalkBench-Long数据集的测试中，SoulX-FlashTalk的表现全面领先行业主流模型。在短视频评测中，其ASE评分达到3.51，IQA评分达到4.79，口型同步Sync-C为1.47；在长视频生成中，Sync-C评分提升至1.61，且长短视频均能稳定维持32fps的高帧率输出。基于这些优异性能，SoulX-FlashTalk可广泛应用于电商7×24小时AI直播、短视频制作、AI教育、NPC交互以及AI客服等场景，有效解决传统数字人直播中画质模糊、口型错位等问题，同时降低运营成本。

值得一提的是，此次开源并非Soul AI Lab的首次尝试。此前，该团队曾开源语音合成模型SoulX-Podcast，并在HuggingFace TTS趋势榜上登顶，GitHub星标数超过3100。此次SoulX-FlashTalk的开源，标志着Soul在AI技术开源领域迈入了新的阶段。未来，Soul AI Lab将继续推进技术开源，与全球开发者共同构建AI+社交的生态系统。

更多>同类资讯

贾跃亭宣布FF机器人6月交付105台，全年出货目标再提至2000台

06-29

AI浪潮下35岁+职场人迎来新机遇：经验叠加技术成职场新优势

06-29

港大团队源策未来获数亿融资，攻克人形机器人全身智能难题启新程

06-29

惠普携手OpenAI推进战略布局：Frontier平台助力业务升级与客户体验提升

IT之家注意到，OpenAI 于今年 2 月宣布推出 OpenAI Frontier，这是一个帮助企业构建、部署和管理 AI智能体的平台。企业可以将现有数据和 AI 一起部署，使其发挥作用，以及集成目前已…

06-29

我国开源生态版图再扩容，AI与具身智能领航，开发者规模全球前列

记者 6 月 26 日从业内获悉，我国开源生态版图进一步扩容，新增了涵盖人工智能、具身智能等领域的 7 个项目。若计入Gitee、AtomGit、GitCode 等国内平台，中国整体开发者规模预计超过 35…

06-29

惠普携手OpenAI推进战略布局：Frontier平台全球业务全面落地助力转型增长

IT之家注意到，OpenAI 于今年 2 月宣布推出 OpenAI Frontier，这是一个帮助企业构建、部署和管理 AI智能体的平台。企业可以将现有数据和 AI 一起部署，使其发挥作用，以及集成目前已…

06-29

北大携手DeepSeek推出DSpark框架：破解大模型推理瓶颈，推动行业技术普惠

06-29

图灵奖得主助力曹操出行，AI战略布局与“双十万计划”双轮驱动未来

06-29

OpenAI再揽苹果大将：Vision Pro前负责人加盟，AI硬件研发提速

06-29

AI赋能职场新图景：近半任务独立承担，人机协同成未来主流期盼

06-29

AI职场渗透加速：近半任务可独立承担，人机协同成未来新期待

06-29

股东会亮出“价值底牌”，长城汽车引领行业跳出“销量陷阱”

06-29

中国建材三条世界级高性能碳纤维产线投产，推动产业向高端技术化转型

06-29

端侧AI爆发智能驾驶跃迁 Chiplet赋能：我国SoC芯片行业迎来发展新机遇

06-29

图灵奖得主希发基思加盟曹操出行助力AI转型与自动驾驶技术突破

06-29

点击查看更多 +

全站最新

全新奔驰纯电GLC 7月8日上市 800V架构+超联屏+长续航亮点满满

新款欧蓝德PHEV官图来袭，熏黑中网黑武士版吸睛，配置升级值不值？

加油误区大揭秘！夏天加油、汽油保质期、标号选择真相在此

股东会亮出“价值底牌”，长城汽车引领行业跳出“销量陷阱”

捷途两款超级方盒子敦煌上市，以创新科技引领越野文化新潮流

29.99万起！东风猛士M817上市，越野与智能融合开启新体验

热门内容

本栏最新

股东会亮出“价值底牌”，长城汽车引领行业跳出“销量陷阱”

华为杨扬：借AI焕新产品服务携手各方推动Token经营价值提升

东风奕派M8正式开启预售！大六座布局+华为科技加持，19.98万起售

东风奕派M8开启预售：大六座SUV新选择，纯电增程双版本来袭

东风奕派M8正式开启预售！19.98万元起享大六座SUV与华为黑科技

AI浪潮来袭，通信行业如何借力重构模式，开启智能新篇章？

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.