阿里通义团队近日宣布,面向全球开发者正式开源Qwen3-ASR系列语音识别模型及配套工具链。此次开源包含三款核心模型:Qwen3-ASR-1.7B、Qwen3-ASR-0.6B以及语音强制对齐模型Qwen3-ForcedAligner-0.6B,所有模型均开放权重参数与推理框架代码,支持多语言、高并发场景下的灵活部署。
该系列模型基于团队自主研发的AuT语音编码器与Qwen3-Omni多模态基座架构构建,具备跨52种语言及方言的识别能力。其中,1.7B参数版本在中文、英文、带口音中文、歌唱内容及强噪声环境等复杂场景中表现优异,多项评测指标达到当前开源模型领先水平;0.6B参数版本则通过架构优化实现性能与效率的平衡,特别适用于实时语音交互、高并发音频处理等工业级场景。
在效率测试中,Qwen3-ASR-0.6B展现显著优势:异步推理模式下,128路并发处理可实现约2000倍吞吐量提升,单节点10秒内可完成超过5小时音频的转写任务。两款ASR模型均支持流式与非流式混合推理,单次处理时长上限扩展至20分钟,满足长音频场景需求。
同步开源的强制对齐模型Qwen3-ForcedAligner-0.6B采用非自回归架构,可精准预测11种语言的语音时间戳。官方对比数据显示,该模型在多基准测试中的对齐精度超越WhisperX、NeMo-ForcedAligner等主流方案,同时保持更低的计算资源消耗,特别适用于字幕生成、语音分析等需要毫秒级精度对齐的应用。
为降低技术落地门槛,团队同步开源包含推理引擎与微调工具的完整框架。该框架集成vLLM加速库,支持批量推理、异步服务、实时流处理及时间戳预测等功能,提供从模型部署到业务适配的一站式解决方案。开发者可通过标准化接口快速构建语音识别、语音分析等应用系统,加速技术成果向产业场景转化。







