ITBear旗下自媒体矩阵:

阿里通义再发力:开源Fun-CosyVoice3-0.5B及轻量化模型,功能升级亮点多

   时间:2025-12-15 18:23:13 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

阿里通义近日在语音技术领域接连推出多项创新成果,为开发者与用户带来更高效的解决方案。其最新开源的Fun-CosyVoice3-0.5B模型具备突破性的零样本音色克隆能力,用户仅需上传一段时长超过3秒的音频样本,系统即可精准复刻该音色并生成全新语音内容。该模型支持本地化部署与二次开发,为个性化语音应用开发提供了灵活的技术底座。

在语音识别领域,通义同步推出轻量化模型Fun-ASR-Nano,通过将参数量压缩至0.8B级别,显著降低了推理计算成本。这款开源模型不仅保持了高精度识别能力,更支持开发者根据特定场景需求进行定制化微调,特别适合资源受限设备部署。经测试,该模型在普通消费级硬件上即可实现流畅运行。

针对复杂音频环境挑战,通义对Fun-ASR模型进行专项优化升级。升级后的版本在噪声干扰场景下仍能保持93%的准确识别率,同时扩展了对音乐类内容的识别支持,包括歌词文本转写和说唱节奏识别等特殊需求。这项改进使得语音识别技术得以拓展至音乐创作、影视制作等创意产业领域,为内容生产者提供智能化工具支持。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version