商汤科技近日宣布,其自主研发的实时语音驱动数字人技术SekoTalk已正式投入商用,并在行业内率先实现实时生成能力。该技术基于8卡服务器架构,可稳定输出25帧每秒的生成速率,首帧响应时间压缩至3.5秒,标志着数字人交互效率取得突破性进展。在多模态适配方面,SekoTalk突破性地支持多语言口型同步技术,可精准匹配不同语种的发音特征,同时具备超长时段连续生成的稳定性优势。
自今年8月正式上线以来,SekoTalk已深度集成至商汤Seko数字人平台及如影创作系统中。通过模块化部署方案,该技术已赋能用户创作超过数十万部数字人内容作品,其中不乏播放量突破2000万次的现象级爆款。这种创作效率的跃升,得益于其底层架构对复杂语音特征的智能解析能力,能够实时捕捉声纹变化并转化为精准的面部表情驱动参数。
技术团队透露,SekoTalk的研发突破源于对生成式AI与语音识别技术的深度融合创新。通过构建三维声场建模系统,结合动态神经网络优化算法,成功解决了传统数字人技术中存在的口型延迟、语言适配性差等痛点。目前该系统已支持中英日韩等主流语言的实时驱动,在跨文化内容创作场景中展现出显著优势。
在应用场景拓展方面,SekoTalk正加速向直播电商、在线教育、虚拟客服等领域渗透。某头部教育平台接入该技术后,其虚拟讲师的互动响应速度提升40%,课程完播率同比增长25%。这种技术赋能效应正在重塑数字内容生产范式,推动人机交互向更自然、更高效的方向演进。














