苹果公司与特拉维夫大学联合研发的语音生成技术取得突破性进展,双方共同提出的“原则性粗粒度”(PCG)方法有效解决了AI文本转语音(TTS)领域长期存在的速度与质量矛盾问题。该技术通过创新性的验证机制,在保持音频自然度的前提下,将语音生成效率提升了近四成。
传统TTS系统普遍采用自回归模型架构,其工作原理类似于逐字拼写——每个语音单元的生成都严格依赖前序单元的精确匹配。这种机制虽能保证输出准确性,但过度严苛的验证标准导致系统频繁拒绝听觉效果相近的可行方案。研究团队发现,不同声学标记产生的实际听感差异往往微乎其微,现有技术的“单点验证”模式存在显著优化空间。
PCG技术的核心创新在于构建声学相似组体系。研究人员将具有相似听觉特征的语音单元归类为同一组别,系统验证时不再要求绝对精确匹配,而是允许预测结果落在合理范围内。这种“范围验证”机制通过双模型协作架构实现:轻量级预测模型快速生成候选单元,大型裁判模型负责审核组别归属。试验表明,该架构在保持4.09分自然度评分(满分5分)的同时,将生成速度提高了40%。
极限测试数据进一步验证了技术的鲁棒性。当研究人员故意替换91.4%的语音单元为同组其他选项时,系统词错率仅上升0.007,说话人特征相似度下降0.027,这些变化均处于人类听觉感知阈值之下。这种容错能力源于PCG对语音本质特征的把握——相比单个标记的精确性,系统更关注整体声学特征的连贯性。
该技术的工程化优势同样显著。作为推理阶段的优化方案,PCG可直接应用于现有模型而无需重新训练,声学相似组的存储需求仅约37MB内存。这种轻量化特性使其特别适合资源受限的边缘计算场景,为移动设备上的实时语音合成提供了可行路径。目前研究团队正探索将该技术扩展至多语言场景,进一步验证其通用性。











