哔哩哔哩(B站)自今年5月宣布将国际版APP与国内版合并后,其海外拓展战略便备受瞩目。近期,在世界人工智能大会的舞台上,B站再次成为焦点,公布了一项专为海外用户打造的“AI原声翻译功能”,旨在提升海外用户在游戏、科技、二次元等领域的观看体验。
随着APP合并的完成,B站已对海外用户页面进行了多语种适配,并正式上线了视频原声翻译功能。这一系列举措表明,B站正全力筹备,准备在海外市场大展拳脚。
此次推出的“AI原声翻译”功能,不仅实现了中英文字幕的自动转换、弹幕翻译及按钮英文适配等基础翻译功能,更在技术上取得了重大突破。该功能能够完美还原UP主的声线、音色和气口,避免了传统机器翻译的生硬感,同时还能根据翻译语言模拟口型,让用户在观看视频时仿佛置身于原声环境。
未来,无论是中文用户观看外语UP主的视频,还是海外用户观看中文UP主的视频,都能享受到无差别的“本地化”翻译体验。B站还计划将日语等更多语言纳入“AI原声翻译”功能中,进一步提升在海外市场的适应能力。
据了解,B站“AI原声翻译功能”中的跨语言声音还原技术,得益于其内部代号为“IndexTTS2”的语音生成模型。该模型引入了一种创新的语音时长及情感控制方法,能够精确调控语音时长,降低翻译难度。同时,模型还实现了情感表达与说话人身份的有效解耦,使翻译后的语音能够高质量地复刻原片中的情感。
为了在游戏、二次元等专名梗点密集的领域实现原风格精准保留与语音时长完美对应,B站技术团队构建了基于大语言模型的翻译引擎,并独创性地构建了多目标奖励模型。该模型结合了语音时长匹配、原声翻译标准与UP主独特风格,采用对抗式强化学习训练,使模型能够持续进化并精准适配。
B站还引入了Deep Research深度挖掘技术,专门攻克专有名词与流行梗点的翻译难点。这一技术的应用确保了最终译文的准确性、地道性和传神性。在字幕擦除方面,B站结合了先进的多模态大模型OCR技术和基于STTN网络的视频重绘技术,实现了字幕区域的精准检测与高还原度擦除。