ITBear旗下自媒体矩阵:

声网开源TEN VAD与Turn Detection,赋能Voice Agent对话更自然流畅

   时间:2025-05-20 14:35:19 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

声网与RTE开发者社区携手,近期宣布了两项重要成果:TEN VAD与TEN Turn Detection模型的开源。这两款模型是声网基于其超过十年的实时语音技术研究,以及超低延迟技术积累所打造的,旨在大幅提升AI Agent的交互体验,使其更加自然流畅。作为开源项目,全球开发者均可自由使用、修改和贡献代码,它们也将作为开源对话式AI生态体系TEN的核心组件,持续进行优化迭代。

TEN VAD,一款轻量级、高性能的语音活动检测模型,凭借其超低延迟、低功耗和高准确率的特点,在语音输入大语言模型前的预处理阶段发挥着重要作用。它能够精确识别音频中的人声,并有效过滤掉背景噪音和静音段,不仅提升了语音识别(STT)的准确性,还显著降低了处理成本。与WebRTC Pitch VAD和Silero VAD相比,TEN VAD在公开测试集上展现出了更优越的表现,特别是在延迟方面,TEN VAD能够快速检测语音与非语音的切换,避免了因延迟导致的交互不畅。

TEN VAD已在Hugging Face和GitHub上开源,并配备了人工精标的数据集,方便开发者进行模型推理和评估。实际应用中,一个真实用户案例显示,使用TEN VAD后,音频传输数据量减少了62%,语音服务成本大幅降低。

另一款模型,TEN Turn Detection,则专注于解决人机对话中的一大难题:判断用户何时停止说话。在真实交流中,AI需要准确区分用户的“中途停顿”与“表达完毕”,以避免插话打断或回应迟缓。TEN Turn Detection支持全双工语音交互,允许用户和AI同时说话,使对话更加自然。该模型通过分析语言模式,判断说话者的状态,从而智能决定AI是“说”还是“听”,支持中英文,可供所有Voice Agent开发者使用。

在多场景测试数据集上,TEN Turn Detection与其他同类开源模型相比,表现出了优越的性能。当TEN VAD与TEN Turn Detection结合使用时,可以打造出更自然、反应更迅速、成本更低的Voice Agent。这两款模型都基于声网深厚的实时语音研究经验,拥有超低延迟、低功耗和高准确率的特点,且完全开源,采用Apache 2.0许可证。

使用这两款模型,AI Agent能够正确处理“打断”、“停顿”、“回应”等人类式交互,极大提升用户体验。同时,由于VAD能够准确识别语音帧,有效减少语音识别调用量,实测结果显示,两者合用能大幅降低总系统成本。这两款模型还可以作为TEN framework的插件模块使用,对于已经使用TEN framework的开发者,支持无缝集成;对于正在选型AI Agent框架的团队,TEN无疑是具备最佳VAD和轮次检测能力的选择之一。

为了快速体验这两款模型,开发者可以登录Hugging Face,打开TEN Agent Demo,进行模型测试和评估。这一开源举措,不仅为开发者提供了高质量的语音处理工具,也推动了对话式AI技术的进一步发展。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version