阿里巴巴通义大模型团队近日宣布,其自主研发的“百聆”系列语音模型完成重大技术迭代并正式开源。此次升级聚焦多语言处理与实时交互能力,推出两款核心模型——Fun-CosyVoice3与Fun-ASR,在语音转换、识别效率及开发灵活性方面实现突破性进展。
Fun-CosyVoice3模型通过优化算法架构,将中英混说场景下的识别准确率提升至行业领先水平,同时将首包响应延迟压缩50%。其独创的“三秒音色克隆”技术成为亮点:用户仅需提供短至三秒的音频样本,系统即可精准复刻声纹特征,并支持生成包含开心、愤怒等八种情绪的个性化语音。这项技术已应用于实时翻译助手、在线教育配音及视障人士无障碍阅读等场景,显著降低内容生产门槛。
另一款Fun-ASR模型则专注语音识别精度与速度的双重提升。在复杂声学环境下,该模型仍保持93%的准确率,并突破性支持歌词、说唱等特殊语料的识别。其多语言混说功能覆盖普通话、粤语等18种中文方言及9种外语,流式识别的首字延迟降至160毫秒,较前代产品缩短40%。某直播平台测试显示,应用该模型后,主播与观众的实时互动延迟减少60%,弹幕文字转语音的流畅度提升显著。
技术开放层面,两款模型均提供完整的本地化部署方案与二次开发接口。开发者可通过GitHub开源社区获取预训练模型及调优工具包,根据医疗、金融、娱乐等垂直领域需求定制专属语音系统。项目负责人透露,已有超过200家企业及研究机构参与早期测试,累计下载量突破5万次。
开源地址:https://github.com/FunAudioLLM/CosyVoice
核心亮点速览:










