YouTube近日宣布对其人工智能配音功能进行重大升级,推出名为“Expressive Speech(情绪化语音)”的新技术,支持英语、法语、德语、印地语、印尼语、意大利语、葡萄牙语和西班牙语八种语言。这一创新旨在解决此前AI配音被诟病的“语调单一、缺乏情感”问题,通过更自然的语音表现提升用户体验。
据YouTube配音产品负责人介绍,Expressive Speech功能由YouTube与Google DeepMind联合开发,通过分析原始视频中的音高、语调、节奏和能量等特征,将这些元素精准映射到AI配音中,使合成语音更接近人类表达方式。该功能自2025年6月向全球创作者开放以来,虽因初期语音偏“机器人化”引发争议,但经过持续优化已显著改善。
为提升功能实用性,YouTube同步推出“Automatic Smart Filtering(自动智能过滤)”系统。该系统可自动识别纯音乐视频、无对白Vlog等不适合AI配音的内容,避免不必要的语音合成,从而优化整体使用体验。平台数据显示,自动配音视频的平均观看时长已达到原语言视频的75%,显示非母语用户对多语言内容的接受度较高。
在用户选择权方面,YouTube新增“Preferred Language(偏好语言)”设置,允许观众选择始终观看原始语言版本,而非默认切换至AI配音。创作者也获得更大控制权,可自行上传多语言音轨替代或补充AI配音,满足多样化创作需求。这些调整体现了YouTube“在扩展AI能力的同时保障人工干预空间”的承诺。
技术扩展方面,YouTube透露正研发自动口型同步(lip sync)功能,目前已在小范围创作者中测试。未来Expressive Speech技术还将支持更多语言,进一步打破语言壁垒。平台强调,AI配音不会影响视频在推荐和搜索系统中的表现,反而有助于内容在不同语言用户群体中的传播。







