中国AI语音领域迎来重大突破,一款名为ViiTorVoice的模型在全球权威评测榜单Seed-TTS上力压群雄,以综合排名第一的成绩惊艳亮相。这一成就标志着中国在语音合成技术领域实现了里程碑式的跨越,为全球语音技术发展树立了新的标杆。
在评测中,ViiTorVoice展现出惊人的性能指标:英文词错率低至1.32%,中文词错率更是突破性地降至0.99%。这一数据不仅刷新了行业纪录,更使其成为全球首个中文词错率突破1.0大关的语音模型。该模型由国内科技公司云上曲率自主研发,其核心优势在于解决了长期困扰行业的语音局部编辑难题。
传统语音合成技术存在明显局限,一旦生成语音内容需要修改,往往需要重新录制整段音频。ViiTorVoice的创新之处在于实现了片段级精准编辑,用户可以单独修改某个词汇或语句片段,而无需影响音频的其他部分。这项技术突破使得语音修改变得如同编辑Word文档般便捷,彻底改变了内容创作、广告营销等领域的生产流程。
实测数据显示,该模型在语音克隆和情感表达方面同样表现卓越。研发团队通过创新性的非自回归(NAR)架构,使模型能够同时捕捉音频前后文信息,确保修改后的语音在音色、节奏、情感衔接等方面与原音频保持高度一致。这种技术路径类似于"完形填空"机制,通过精准填补需要修改的音频片段,实现无缝衔接的编辑效果。
在具体应用场景中,ViiTorVoice展现出强大的适应能力。测试人员用该模型重新制作了包含知名运动员哈兰德和姆巴佩的广告音频,修改后的语音不仅完美保留了原声的独特音质,更在呼吸节奏、重音分布等细节上达到专业级水准。特别是在将姆巴佩的广告语"补水啦"植入汽车广告时,模型成功实现了魔性语调与严肃旁白的自然融合,创造出令人捧腹的喜剧效果。
该模型的技术架构具有显著优势。相比传统自回归模型存在的推理延迟高、长文本易出错等问题,ViiTorVoice采用的非自回归架构可同时生成所有时间点的语音标记,将首帧延迟压缩至60毫秒以内。通过深度优化推理结构和算子设计,配合一致性蒸馏技术将推理步骤大幅减少,模型在保持高性能的同时实现了极低的计算成本。
在语音情感控制方面,ViiTorVoice引入了创新的副语言感知技术。通过插入特殊标记,模型能够精准控制笑声、叹气等情感表达,甚至可以区分不同强度的愤怒情绪。这种词级别的精细控制能力,源于团队将图像生成领域的CFG技术成功迁移至音频领域,通过双路径推理机制显著提升了情感表达的自然度和准确性。
针对跨语种语音克隆难题,ViiTorVoice开发出无参考文本克隆技术。传统方法需要提供准确的文字内容作为参考,而该模型通过直接分析音频声学特征,即可提取说话人的音色特征并应用于多种语言生成。这项突破性技术为短剧出海、游戏配音等领域提供了高效解决方案,目前已有多家头部企业将其应用于实际生产环境。
为推动技术生态发展,研发团队已开源10亿参数规模的模型版本,包含完整的本地化组件。开发者可在GitHub和Hugging Face平台获取模型代码,自由探索语音克隆、局部编辑和情感控制等创新应用。这一开放策略将加速语音技术的普及,为内容创作者提供前所未有的创作自由度。












