阿里千问团队近日宣布正式开源Qwen3-ASR系列语音识别模型,该系列包含两个通用语音识别模型Qwen3-ASR-1.7B与Qwen3-ASR-0.6B,以及一个专门用于语音时间戳预测的强制对齐模型Qwen3-ForcedAligner-0.6B。此次开源不仅开放了模型结构与权重,还同步推出配套的推理框架,旨在为语音识别领域提供更高效的解决方案。
Qwen3-ASR系列模型的核心优势在于其多语言支持能力。其中1.7B与0.6B版本均通过单一模型架构实现对30种语言的语种识别、22种中文方言及多国英文口音的语音识别。在复杂场景下,这两个模型展现出强大的适应性,包括嘈杂环境、特殊文本模式以及歌唱场景的语音转写。实验数据显示,1.7B版本在中文、英文及方言识别等任务中达到开源领域最优水平,其歌唱识别功能甚至能处理带背景音乐的完整歌曲转写。
性能与效率的平衡是0.6B版本的突出特点。该模型在保持识别准确率的同时,通过异步推理架构实现显著的速度提升。在128并发处理场景下,其吞吐量可达常规处理的2000倍,仅需10秒即可完成5小时音频的转写任务。两个版本均支持流式与非流式混合推理,最长可处理20分钟连续音频,满足实时与离线场景的双重需求。
强制对齐模型Qwen3-ForcedAligner-0.6B采用非自回归推理架构,支持11种语言的语音时间戳精准标注。相较于传统端到端方案,该模型在时间戳预测精度上提升显著,单并发推理延迟低至0.0089秒。其独特优势在于可对音频任意片段进行灵活标注,特别适用于需要精确时间对齐的语音分析任务。
技术实现层面,Qwen3-ASR系列依托创新的AuT语音编码器与Qwen3-Omni多模态基座模型。这种架构设计使模型既能捕捉语音的声学特征,又能理解语言层面的语义信息。在噪声抑制、口音适应等挑战性场景中,模型通过多模态信息融合保持稳定输出,字错误率较主流商用API降低20%以上。
配套开源的推理框架提供完整的功能支持,包括基于vLLM的批量推理、异步服务部署、流式处理以及时间戳预测等。开发者可通过该框架快速构建语音识别应用,无需额外开发底层处理逻辑。框架设计充分考虑不同场景需求,既支持轻量级部署,也能满足高并发工业级应用。
在评估基准测试中,Qwen3-ASR-1.7B在多个维度展现领先性能。英文识别任务中,该模型在覆盖16国口音的测试集上全面超越GPT-4o Transcribe、Gemini系列等商用系统;多语种测试中,20种主流语言的平均词错误率优于现有开源模型;中文方言识别任务较同类模型错误率降低20%。0.6B版本则在效率指标上表现突出,离线推理速度提升100倍,在线服务吞吐量达行业领先水平。
此次开源项目通过GitHub、HuggingFace和ModelScope等平台同步发布,提供模型下载、在线演示及API调用服务。研究团队同步公开了技术论文,详细阐述模型架构设计与训练方法。该系列模型的开源将为语音识别技术研究提供新的基准,推动多语言处理、实时转写等应用场景的创新发展。







