ITBear旗下自媒体矩阵:

阿里“百聆”语音模型升级开源:三秒录音畅享多语言方言与情感模拟

   时间:2025-12-16 02:39:08 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

阿里巴巴通义大模型团队近日宣布,其自主研发的“百聆”系列语音模型完成重大技术迭代并正式开源。此次升级聚焦多语言处理与实时交互能力,推出两款核心模型——Fun-CosyVoice3与Fun-ASR,在语音转换、识别效率及开发灵活性方面实现突破性进展。

Fun-CosyVoice3模型通过优化算法架构,将中英混说场景下的识别准确率提升至行业领先水平,同时将首包响应延迟压缩50%。其独创的“三秒音色克隆”技术成为亮点:用户仅需提供短至三秒的音频样本,系统即可精准复刻声纹特征,并支持生成包含开心、愤怒等八种情绪的个性化语音。这项技术已应用于实时翻译助手、在线教育配音及视障人士无障碍阅读等场景,显著降低内容生产门槛。

另一款Fun-ASR模型则专注语音识别精度与速度的双重提升。在复杂声学环境下,该模型仍保持93%的准确率,并突破性支持歌词、说唱等特殊语料的识别。其多语言混说功能覆盖普通话、粤语等18种中文方言及9种外语,流式识别的首字延迟降至160毫秒,较前代产品缩短40%。某直播平台测试显示,应用该模型后,主播与观众的实时互动延迟减少60%,弹幕文字转语音的流畅度提升显著。

技术开放层面,两款模型均提供完整的本地化部署方案与二次开发接口。开发者可通过GitHub开源社区获取预训练模型及调优工具包,根据医疗、金融、娱乐等垂直领域需求定制专属语音系统。项目负责人透露,已有超过200家企业及研究机构参与早期测试,累计下载量突破5万次。

开源地址:https://github.com/FunAudioLLM/CosyVoice

核心亮点速览:

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version