ITBear旗下自媒体矩阵:

阿里通义百聆开源新模型:Fun-CosyVoice实现3秒音色克隆,Fun-ASR轻量化登场

   时间:2025-12-15 23:49:23 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

阿里旗下通义百聆团队近日在语音技术领域取得重要进展,正式开源两款轻量化语音模型。其中Fun-CosyVoice(0.5B版本)凭借其突破性的音色克隆能力引发关注,该模型仅需用户提供3秒语音样本,即可实现跨语言、跨方言的语音合成,同时支持情绪风格的动态调整。这项技术突破使得语音克隆不再受限于特定语种或表达方式,为个性化语音交互开辟了新路径。

在技术实现层面,Fun-CosyVoice通过创新的零样本学习框架,将传统语音克隆所需的庞大训练数据压缩至极简。开发者介绍称,该模型在保持高保真度的同时,将参数量控制在0.5B级别,显著降低了硬件部署门槛。更值得关注的是,模型支持完全本地化运行,用户无需依赖云端服务即可完成语音克隆与合成,这在隐私保护要求严格的场景中具有重要应用价值。

同步开源的Fun-ASR轻量化版本则聚焦语音识别优化,通过参数压缩技术将模型规模缩减至0.8B。测试数据显示,新版本在保持识别准确率的前提下,推理速度提升40%,硬件资源消耗降低65%。该模型同样支持本地部署与定制化微调,企业用户可根据特定场景需求,快速训练出行业专属的语音识别系统。

技术社区对这两款开源模型反响热烈。多位独立开发者在实测后表示,Fun-CosyVoice的跨语言能力突破了传统语音克隆的技术边界,其支持的方言种类超过20种,情绪表达维度达12类。而Fun-ASR的轻量化设计则解决了边缘设备部署的痛点,在智能车载、物联网设备等场景具有直接应用价值。目前两个项目已在开源平台完整公开代码与训练框架,配套提供详细的技术文档与开发指南。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version