ITBear旗下自媒体矩阵:

B站推出AI原声风格视频配音,自研模型助力多语言自然翻译

   时间:2025-08-07 02:46:08 来源:IT之家编辑:快讯团队 IP:北京 发表评论无障碍通道
 

Bilibili Index团队近期宣布了一项技术创新,他们成功研发了IndexTTS2模型,并据此推出了“原声风格”视频配音功能。这一功能不仅能够将中文视频内容翻译为外语,更重要的是,配音效果极其贴近原声,仿佛视频中的人物亲自用外语讲述。

据团队介绍,IndexTTS2模型的应用,打破了传统配音中“代言人声线”的单一性,使得配音效果在声音、语气、节奏以及个性表达上,都能与原版视频高度一致。观众在聆听时,会有种视频中人物直接用另一种语言对话的错觉。

该模型的一大创新在于提出了适用于AR系统的“时间编码”机制,这一机制有效解决了传统AR模型在语音时长控制上的不足。在保留AR架构原有优势的同时,如韵律自然性、风格迁移能力及多模态扩展性,新模型还具备了合成定长语音的能力。

团队还运用了一系列先进技术,如音色克隆、声场一致性及多声源融合,这些技术的运用,极大地解决了传统配音中存在的声音人格缺失、字幕干扰及本地化成本高昂等问题。在多说话人场景中,系统对说话人分割、情绪迁移与语速控制进行了优化,并引入了RIVAL对抗式强化学习框架,以提升翻译质量与风格适配度。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version