滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

阿里“百聆”语音模型升级开源：三秒录音畅享多语言方言与情感模拟

时间：2025-12-16 02:39:08 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

阿里巴巴通义大模型团队近日宣布，其自主研发的“百聆”系列语音模型完成重大技术迭代并正式开源。此次升级聚焦多语言处理与实时交互能力，推出两款核心模型——Fun-CosyVoice3与Fun-ASR，在语音转换、识别效率及开发灵活性方面实现突破性进展。

Fun-CosyVoice3模型通过优化算法架构，将中英混说场景下的识别准确率提升至行业领先水平，同时将首包响应延迟压缩50%。其独创的“三秒音色克隆”技术成为亮点：用户仅需提供短至三秒的音频样本，系统即可精准复刻声纹特征，并支持生成包含开心、愤怒等八种情绪的个性化语音。这项技术已应用于实时翻译助手、在线教育配音及视障人士无障碍阅读等场景，显著降低内容生产门槛。

另一款Fun-ASR模型则专注语音识别精度与速度的双重提升。在复杂声学环境下，该模型仍保持93%的准确率，并突破性支持歌词、说唱等特殊语料的识别。其多语言混说功能覆盖普通话、粤语等18种中文方言及9种外语，流式识别的首字延迟降至160毫秒，较前代产品缩短40%。某直播平台测试显示，应用该模型后，主播与观众的实时互动延迟减少60%，弹幕文字转语音的流畅度提升显著。

技术开放层面，两款模型均提供完整的本地化部署方案与二次开发接口。开发者可通过GitHub开源社区获取预训练模型及调优工具包，根据医疗、金融、娱乐等垂直领域需求定制专属语音系统。项目负责人透露，已有超过200家企业及研究机构参与早期测试，累计下载量突破5万次。

开源地址：https://github.com/FunAudioLLM/CosyVoice

核心亮点速览：

更多>同类资讯

阿里云创始人王坚：我坚定地不相信AI会替代人

06-12

字节跳动成立云瑞长石科技公司，注册资本16亿元

06-12

雷军现身江苏盐城：一路逛吃打卡品尝特色鱼汤面、鸡蛋饼

06-12

抖音：开展“恶意营销号”治理，累计处置违规账号387.4万个

06-12

雷军秀出小米家充机械臂：自动插拔枪，手机可遥控

06-12

小米MiMo-V2系列模型6月30日正式下线

06-12

Kimi发布并开源Kimi K2.7 Code编程模型

06-12

SpaceX总裁肖特韦尔：IPO仅是“未来征程”一小步

06-12

高盛发布AI行业研报：市场低估AI需求2030 年Token消耗或将暴涨 24 倍

06-12

讯飞医疗正式发布星火医疗大模型V3.5

06-12

大疆在美国起诉影石：指控Luna相机侵犯专利

06-12

阿里云创始人王坚：我坚定地不相信AI会替代人

06-12

06-12

06-12

06-12

全站最新

小米汽车YU7实测续航亮眼，全系安全配置“一视同仁”无差别

红米K100系列配置大升级，大屏长续航强性能，或告别性价比定位？

泰和新材“5天4板”股价创新高业绩承压下如何谋转型突围？

90后技术天才陈宇森接棒钉钉CEO，AI新征程能否引领钉钉二次腾飞？

6·18大促百亿补贴“掺水” 五大电商平台遭监管约谈限期整改

淅川护林员陈人范：42年坚守水源地，用一生筑牢生态屏障荣膺“中国好人”

热门内容

本栏最新

小米汽车YU7实测续航亮眼，全系安全配置“一视同仁”无差别

红米K100系列配置大升级，大屏长续航强性能，或告别性价比定位？

泰和新材“5天4板”股价创新高业绩承压下如何谋转型突围？

90后技术天才陈宇森接棒钉钉CEO，AI新征程能否引领钉钉二次腾飞？

6·18大促百亿补贴“掺水” 五大电商平台遭监管约谈限期整改

淅川护林员陈人范：42年坚守水源地，用一生筑牢生态屏障荣膺“中国好人”

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.