IBM 近日正式推出了 Granite4.01B Speech。这是一款专为边缘计算和企业级部署设计的紧凑型语音语言模型,旨在提供高效率的多语种自动语音识别(ASR)与双向自动语音翻译(AST)能力。
与前代版本相比,Granite4.01B Speech 的参数量仅为上一代模型的一半,但在性能上实现了显著跃升。新模型不仅增加了对日语 ASR 的支持,还引入了关键词偏置功能,并大幅提升了英文转录的准确率。其核心设计目标是在不牺牲核心能力的前提下,极大地降低内存占用、推理延迟和计算成本。
该模型采用了创新的“两阶段设计”架构。系统首先将音频转换为文本,随后通过专门的 Granite 语言模型进行推理处理。这种模块化设计允许开发者根据需求灵活编排流程。目前,该模型已支持包括英语、法语、德语、西班牙语、葡萄牙语和日语在内的多语种互译,并能处理英语对中文(普通话)的翻译任务。
在性能测试中,Granite4.01B Speech 表现出色,位居 OpenASR 排行榜首位,平均字错率(WER)仅为5.52。目前,IBM 已根据 Apache2.0协议正式开源该模型,开发者可通过 Transformers 或 vLLM 等主流框架进行本地部署,为资源受限的移动端或边缘设备提供强劲的 AI 语音支持。
项目:https://huggingface.co/ibm-granite/granite-4.0-1b-speech











