ITBear旗下自媒体矩阵:

阿里千问团队重磅开源Qwen3-ASR系列模型 精准高效助力语音识别新突破

   时间:2026-01-30 06:48:20 来源:ITBEAR编辑:快讯 IP:北京 发表评论无障碍通道
 

阿里千问团队近日宣布,其自主研发的Qwen3-ASR系列语音识别模型正式开源。该系列包含两款核心语音识别模型Qwen3-ASR-1.7B与Qwen3-ASR-0.6B,以及创新型语音强制对齐模型Qwen3-ForcedAligner-0.6B,形成覆盖多语种、多场景的完整解决方案。此次开源不仅包含模型架构与权重参数,还同步推出配套推理框架,为学术界与产业界提供端到端的技术支持。

在技术架构层面,Qwen3-ASR系列依托自主研发的AuT语音编码器与Qwen3-Omni多模态基座模型,实现语音识别性能的突破性提升。其中1.7B参数版本在中文、英文及混合口音场景中达到行业领先水平,特别是在噪声干扰环境下仍能保持98%以上的识别准确率。0.6B参数版本则通过架构优化实现性能与效率的平衡,在128并发异步推理场景下可达到2000倍吞吐量,处理5小时音频仅需10秒,满足实时语音转写需求。

该系列模型支持全球52种语言及方言的识别,涵盖30个语种的语音识别、22种中文方言及多国英语口音。在歌唱识别专项测试中,1.7B版本对带背景音乐的中文歌曲转写错误率低至13.91%,英文歌曲达14.60%,显著优于同类开源模型。针对儿童语音、低信噪比等复杂场景,模型通过自适应声学建模技术,将字词错误率控制在行业最低水平。

创新推出的Qwen3-ForcedAligner-0.6B强制对齐模型采用非自回归推理架构,支持11种语言的任意语音片段时间戳标注。经权威测试,该模型在5分钟以内音频的时间戳预测精度超越WhisperX、NeMo等传统方案,单并发推理延迟仅0.0089秒,可满足影视字幕制作、语音教学等高精度需求场景。

配套开源的推理框架集成vLLM加速技术,支持流式/非流式混合推理、批量处理及时间戳预测等功能。开发者可通过HuggingFace、ModelScope等平台直接调用模型资源,或基于阿里云百炼API快速构建语音识别服务。此次开源包含完整的模型训练代码与微调工具包,为语音技术社区提供可复现的研究基准。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version