ITBear旗下自媒体矩阵:

Soul开源14亿参数实时数字人模型SoulXFlashTalk 助力AI与社交领域创新融合

   时间:2026-04-24 16:57:16 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

近日,Soul AI Lab 正式对外发布并开源了一款名为 SoulXFlashTalk 的实时数字人生成模型,该模型拥有14亿参数规模,在实时交互性能上表现突出,能够实现亚秒级响应延迟,同时支持每秒32帧的高帧率输出,为数字人技术的行业应用提供了完整的解决方案。

作为业内首个达到这一技术标准的开源模型,SoulXFlashTalk 的开放体系包含项目页面、技术文档、源代码及预训练模型权重,开发者可自由获取并基于现有框架进行二次开发。这一举措显著降低了数字人技术的研发门槛,为中小企业及创新团队提供了关键技术支撑,加速了实时交互场景的落地应用。

此次开源是 Soul 在多模态技术布局中的重要里程碑。去年10月,该团队已率先开源语音合成模型 SoulXPodcast,此次视觉模型的开放标志着其"语音+视觉"双模态技术矩阵的完整构建。通过持续推动核心技术开源,Soul 旨在打破技术壁垒,促进AI生态的协同发展。

据技术团队介绍,SoulXFlashTalk 在模型架构上进行了多项创新,包括动态注意力机制优化和轻量化特征提取网络设计,使其在保持高精度的同时具备实时渲染能力。测试数据显示,该模型在标准硬件环境下可实现端到端延迟低于800毫秒,满足直播互动、虚拟客服等场景的严苛要求。

行业分析师指出,随着多模态交互技术的成熟,数字人将深度渗透社交网络、在线教育、远程医疗等领域。Soul 的开源战略不仅推动了技术普惠,更通过构建开放生态为行业树立了标杆,其技术积累有望重新定义人机交互的体验边界。

划重点:

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version