IBM近日宣布开源一款名为Granite4.01B Speech的语音语言模型,该模型专为边缘计算场景和企业级应用开发,通过优化架构实现性能与资源占用的双重突破。据公开资料显示,这款模型在保持核心功能完整性的同时,将参数量压缩至前代的一半,内存占用和推理延迟显著降低,为移动端及资源受限设备提供了高效的语音处理解决方案。
技术架构方面,Granite4.01B Speech采用独特的两阶段处理流程:首先通过专用模块将音频信号转换为文本,再由定制化的Granite语言模型完成语义理解与任务处理。这种模块化设计赋予开发者高度灵活性,可根据实际需求自由组合功能模块。目前模型已支持英语、法语、德语、西班牙语、葡萄牙语和日语的自动语音识别(ASR),并具备英语与中文(普通话)的双向翻译能力,多语种互译功能覆盖主流商业应用场景。
性能提升是本次升级的核心亮点。测试数据显示,该模型在OpenASR国际评测中以5.52%的平均字错率(WER)登顶排行榜,英文转录准确率较前代提升明显。新增的关键词偏置功能可优先识别特定词汇,显著提升垂直领域的识别精度。特别值得关注的是,模型新增的日语ASR支持填补了前代产品在东亚语言市场的空白,进一步扩展了商业应用范围。
开源协议采用Apache2.0标准,开发者可通过Hugging Face平台获取模型权重文件,并兼容Transformers、vLLM等主流深度学习框架。这种开放策略降低了技术门槛,使中小企业能够快速构建定制化语音解决方案。项目页面显示,模型已针对ARM架构设备完成优化,可在树莓派等低功耗硬件上流畅运行,为物联网设备智能化升级提供了新选择。
访问链接:https://huggingface.co/ibm-granite/granite-4.0-1b-speech








