阿里通义实验室语音团队近日宣布推出两款创新模型——Fun-CosyVoice3.5与Fun-AudioGen-VD,这两款模型均支持通过自然语言指令实现FreeStyle生成,为语音技术领域带来新的突破。
Fun-CosyVoice3.5专注于多语种复刻与精细化表达控制。用户只需用日常语言描述期望的语音特征,如“语气更坚定”、“降低音调并放慢语速”或“增加情绪波动”,模型便能精准理解并生成符合要求的语音。针对生僻字和复杂语句的发音难题,该模型经过专项优化,生僻字读错率从原先的15.2%大幅下降至5.3%,显著提升了语音输出的准确性。
另一款模型Fun-AudioGen-VD则侧重于声音设计与场景化音频生成。它能够根据自然语言描述,不仅生成特定的音色和情绪表达,还能构建完整的听觉场景。这一功能使得用户能够创造出沉浸式的音频体验,仿佛声音本身就存在于一个真实的世界之中。
两款模型的推出,标志着语音技术在自然语言交互和场景化应用方面迈出了重要一步。它们不仅简化了语音生成的流程,还极大地拓展了语音技术的应用范围,为内容创作者、教育工作者以及娱乐产业提供了更多可能性。








