ITBear旗下自媒体矩阵:

面壁智能联合清华研发VoxCPM语音模型,高效生成自然流畅音频且支持方言

   时间:2025-09-18 20:01:26 来源:财闻编辑:快讯团队 IP:北京 发表评论无障碍通道
 

面壁智能与清华大学深圳国际研究生院人机语音交互实验室(THUHCSI)联合研发的语音生成基座模型VoxCPM正式开源,其参数规模仅为0.5B,已在GitHub、Hugging Face等平台向全球开发者开放。这款端到端扩散自回归模型突破了传统语音合成技术路径,通过融合层次化语言建模与局部扩散生成架构,实现了从文本到连续语音表征的高效转换。

区别于CosyVoice、FireRedTTS等采用离散声学词元处理的方案,VoxCPM创新性地采用连续表征端到端TTS技术。该模型可直接解析输入文本,实时流式生成高质量音频片段,在单张NVIDIA RTX 4090显卡上实现RTF≈0.17的推理速度。权威评测显示,其在Seed-TTS-eval榜单的相似度、词错误率等核心指标均达到行业顶尖水平。

模型具备强大的文本理解能力,可自主适配不同场景的语音特征。无论是模拟天气预报员的规范播报、历史英雄的激昂演讲,还是还原方言主播的特色腔调,均能通过调整韵律参数实现精准还原。特别在中文处理方面,模型突破性地支持数学公式、特殊符号的语音合成,同时提供音素级标记替换功能,允许用户自定义读音修正。

技术团队介绍,VoxCPM通过扩散生成机制与语言模型的深度耦合,显著提升了语音输出的自然度与稳定性。其流式输出能力理论上支持无限长度音频的实时生成,为智能客服、有声读物、教育辅导等场景提供了新的技术解决方案。目前开源版本已包含完整的训练代码与预训练权重,开发者可基于现有框架进行二次开发。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version