阿里云旗下的通义大模型近日正式推出新一代语音交互模型Fun-Audio-Chat,这是通义百聆语音模型系列中首个专注于“语音对语音”交互能力的创新成果。该模型支持用户直接通过语音进行多轮对话,无需依赖文本输入或转换,为语音交互领域带来了新的技术突破。
在性能表现方面,Fun-Audio-Chat在多项国际权威评测中展现出显著优势。根据OpenAudioBench、VoiceBench、Ultraeval-Audio等语音与多模态评测数据显示,该模型在语音理解、生成质量以及对话协同能力上均达到开源模型领先水平,整体性能超越同参数规模的多款主流模型。这一成果验证了其在复杂语音场景下的技术实力。
作为通义百聆语音模型家族的最新成员,Fun-Audio-Chat-8B与系列中已有的语音转文字模型Fun-ASR、文字转语音模型Fun-CosyVoice3形成互补。其核心亮点在于端到端的语音交互能力,可直接应用于语音聊天、情感陪伴、智能终端交互及语音客服等场景。目前,该模型已在魔搭社区、Hugging Face及GitHub等平台全面开源,供全球开发者使用。
在技术架构上,阿里云团队采用了两项创新策略。首先是Core-Cocktail两阶段训练方法,通过分阶段引入语音与多模态能力,并与原有文本大模型参数进行融合微调,有效降低了新增能力对语言理解基础的干扰,解决了“灾难性遗忘”这一技术难题。其次是多阶段、多任务的偏好对齐训练机制,使模型能够更精准地捕捉语音对话中的语义与情绪线索,显著提升了对话的自然流畅度。
算力效率优化是该模型的另一大突破。通过采用压缩—自回归—解压缩的双分辨率端到端架构,Fun-Audio-Chat-8B将音频处理帧率降至约5Hz,在保持语音质量的同时,将GPU计算开销降低近50%。这一设计在当前语音大模型普遍面临高算力成本的背景下,展现了重要的工程应用价值。
此次开源的Fun-Audio-Chat-8B不仅推动了语音交互技术向低算力、强对话的实用化方向发展,也为开源社区提供了可部署于真实场景的语音大模型技术方案。其创新架构与训练策略为行业开发者提供了新的技术参考,有望加速语音交互技术在更多领域的落地应用。











