哔哩哔哩(B站)Index团队近日宣布,其自主研发的零样本文本转语音(TTS)系统IndexTTS-2.0正式开源。该系统以情感可控、时长可调为核心特性,被业界视为推动零样本TTS技术从实验室走向实际应用的重要突破。
传统语音合成技术长期面临两大挑战:语音节奏的精准控制与情感表达的自然度。IndexTTS-2.0通过两项关键技术创新解决了这些问题。其一,系统引入时间编码机制,首次在自回归架构中实现语音时长的精确调控,使合成语音的节奏更接近人类自然发音;其二,采用音色与情感解耦建模技术,支持通过文本描述、情感向量或独立音频参考等多种方式调节语音情感,用户既可基于单一音色样本生成不同情绪的语音,也能通过混合参考实现更复杂的情感表达。
技术架构的革新直接提升了系统的应用灵活性。据官方演示,IndexTTS-2.0可适配AI配音、有声读物制作、动态漫画配音、视频翻译、语音对话系统及播客生产等多元场景。例如在跨语言内容本地化中,系统能通过情感复现与节奏匹配技术,让海外用户收听中文视频或中国用户聆听外语内容时,获得与原声高度一致的沉浸体验,显著降低优质内容跨语言传播的技术门槛。
目前,IndexTTS-2.0已全面开放技术资源,包括项目论文、完整代码库、预训练模型权重及在线体验平台。开发者可通过魔搭社区或Hugging Face获取模型文件,并在GitHub项目页面查阅技术文档。团队特别推出交互式Demo,用户可输入文本并自由调节情感强度、语速等参数,实时生成并试听语音效果。
开源地址:GitHub - index-tts/index-tts
论文链接:[2506.21619] IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech
在线体验:https://huggingface.co/spaces/IndexTeam/IndexTTS-2-Demo