ITBear旗下自媒体矩阵:

苹果携手高校推出PCG技术:AI语音生成效率与质量双提升

   时间:2026-02-03 19:08:55 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

苹果公司与特拉维夫大学联合研发的语音生成技术取得突破性进展,双方共同提出的“原则性粗粒度”(PCG)方法有效解决了AI文本转语音(TTS)领域长期存在的速度与质量矛盾问题。该技术通过创新性的验证机制,在保持音频自然度的前提下,将语音生成效率提升了近四成。

传统TTS系统普遍采用自回归模型架构,其工作原理类似于逐字拼写——每个语音单元的生成都严格依赖前序单元的精确匹配。这种机制虽能保证输出准确性,但过度严苛的验证标准导致系统频繁拒绝听觉效果相近的可行方案。研究团队发现,不同声学标记产生的实际听感差异往往微乎其微,现有技术的“单点验证”模式存在显著优化空间。

PCG技术的核心创新在于构建声学相似组体系。研究人员将具有相似听觉特征的语音单元归类为同一组别,系统验证时不再要求绝对精确匹配,而是允许预测结果落在合理范围内。这种“范围验证”机制通过双模型协作架构实现:轻量级预测模型快速生成候选单元,大型裁判模型负责审核组别归属。试验表明,该架构在保持4.09分自然度评分(满分5分)的同时,将生成速度提高了40%。

极限测试数据进一步验证了技术的鲁棒性。当研究人员故意替换91.4%的语音单元为同组其他选项时,系统词错率仅上升0.007,说话人特征相似度下降0.027,这些变化均处于人类听觉感知阈值之下。这种容错能力源于PCG对语音本质特征的把握——相比单个标记的精确性,系统更关注整体声学特征的连贯性。

该技术的工程化优势同样显著。作为推理阶段的优化方案,PCG可直接应用于现有模型而无需重新训练,声学相似组的存储需求仅约37MB内存。这种轻量化特性使其特别适合资源受限的边缘计算场景,为移动设备上的实时语音合成提供了可行路径。目前研究团队正探索将该技术扩展至多语言场景,进一步验证其通用性。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version