ITBear旗下自媒体矩阵:

阿里开源Qwen3-ASR语音模型

   时间:2026-01-30 05:30:18 来源:鞭牛士编辑:快讯 IP:北京 发表评论无障碍通道
 

AIPress.com.cn报道

1月29日消息,阿里通义团队近日宣布正式开源 Qwen3-ASR 系列语音识别模型,包括 Qwen3-ASR-1.7B、Qwen3-ASR-0.6B 以及语音强制对齐模型 Qwen3-ForcedAligner-0.6B。该系列模型面向多语言、高稳定性与流式推理场景设计,支持多种部署形态,并同步开放模型权重与推理框架。

据介绍,Qwen3-ASR 系列基于自研 AuT 语音编码器与 Qwen3-Omni 多模态基座模型构建,可覆盖 52 个语种及方言的语种识别与语音识别任务。其中,Qwen3-ASR-1.7B 在中文、英文、中文口音、歌唱识别及强噪声环境下表现突出,在多项公开与内部评测中达到当前开源模型的最优水平;Qwen3-ASR-0.6B 则在性能与效率之间取得平衡,面向高并发与实时服务场景。

在效率方面,Qwen3-ASR-0.6B 模型在异步推理模式下,128 并发条件中可实现约 2000 倍吞吐能力,10 秒内处理超过 5 小时音频。两款 ASR 模型均支持流式与非流式一体化推理,单次最长可处理 20 分钟音频。

此次同步开源的 Qwen3-ForcedAligner-0.6B 强制对齐模型,采用非自回归大模型推理方式,支持 11 个语种的高精度时间戳预测。官方评测显示,其时间戳对齐精度在多项基准中超过 WhisperX、NeMo-ForcedAligner 等主流方案,同时保持较高推理效率。

在配套工具层面,通义团队同时开源了一套完整的推理与微调框架,支持基于 vLLM 的批量推理、异步服务、流式识别及时间戳预测,面向研究与产业应用提供统一工具链。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version