阿里巴巴旗下的通义技术团队近期揭晓了其最新的语音识别大模型——Fun-ASR。这款模型在垂直行业应用中,如家装和保险领域,实现了语音识别准确率的显著提升,增幅超过15%。具体而言,保险行业的准确率与前代相比提高了18%,而在家装和畜牧等领域,提升幅度更是达到了15%至20%。
Fun-ASR基于大语言模型架构,结合了自研的语音算法和Qwen3监督微调技术,以及前沿的模型架构与文本模态对齐技术。这一组合不仅保持了语言处理的卓越性能,还通过集成RAG检索增强方案,支持超过1000个自定义热词的导入。这一功能能够智能匹配音频中的领域特定热词、历史文档和上下文信息,从而极大提升了特定场景下的关键词识别效果。
为了应对语音识别中的噪声干扰、语种混淆和生成幻觉等挑战,研发团队引入了强化学习(RL)技术。通过动态优化策略,Fun-ASR显著减少了识别误差,从而大幅提升了系统的稳定性和可靠性。该模型在方言识别方面也表现出色,尤其在四川话、粤语和闽南语上的识别能力优于同类产品。同时,它还适应远场拾音和近场降噪等复杂声学环境,能够覆盖从会议室到户外等多种场景。
在训练数据方面,Fun-ASR基于数亿小时的音频数据构建,并深度融合了互联网、科技、畜牧、汽车等多个领域的专业术语库。这一庞大的数据基础使其在垂直行业识别中展现出独特优势。例如,在畜牧行业中,Fun-ASR能够精确区分牲畜的叫声和环境噪声中的关键指令。