Bilibili Index团队近期宣布了一项技术创新,他们成功研发了IndexTTS2模型,并据此推出了“原声风格”视频配音功能。这一功能不仅能够将中文视频内容翻译为外语,更重要的是,配音效果极其贴近原声,仿佛视频中的人物亲自用外语讲述。
据团队介绍,IndexTTS2模型的应用,打破了传统配音中“代言人声线”的单一性,使得配音效果在声音、语气、节奏以及个性表达上,都能与原版视频高度一致。观众在聆听时,会有种视频中人物直接用另一种语言对话的错觉。
该模型的一大创新在于提出了适用于AR系统的“时间编码”机制,这一机制有效解决了传统AR模型在语音时长控制上的不足。在保留AR架构原有优势的同时,如韵律自然性、风格迁移能力及多模态扩展性,新模型还具备了合成定长语音的能力。
团队还运用了一系列先进技术,如音色克隆、声场一致性及多声源融合,这些技术的运用,极大地解决了传统配音中存在的声音人格缺失、字幕干扰及本地化成本高昂等问题。在多说话人场景中,系统对说话人分割、情绪迁移与语速控制进行了优化,并引入了RIVAL对抗式强化学习框架,以提升翻译质量与风格适配度。