meta基础人工智能研究团队FAIR近日宣布推出一项名为“全语种自动语音识别系统”(Omnilingual ASR)的创新技术,该系统可支持超过1600种语言的语音转写功能,显著扩大了现有语音识别技术的语言覆盖范围。这一突破性成果有望为全球语言多样性保护与跨语言交流提供重要支持。
传统语音识别工具主要聚焦于数百种资源丰富的语言,这些语言拥有大量标注音频数据用于模型训练。然而全球现存7000余种语言中,绝大多数因缺乏训练数据而难以获得人工智能技术支持。Omnilingual ASR的研发正是为了填补这一技术鸿沟,其支持的语种中包含500种此前从未被任何AI系统覆盖的语言。
系统性能测试数据显示,在1600种测试语言中,78%的语言实现了字符错误率(CER)低于10%的识别精度。当训练音频时长达到10小时及以上时,这一比例提升至95%;即使对于训练数据不足10小时的“低资源语言”,仍有36%达到相同精度标准。研究团队强调,识别准确率与训练数据量呈现显著正相关关系。
为推动技术普惠应用,meta同步开放了“全语种ASR语料库”(Omnilingual ASR Corpus),该数据集包含350种代表性不足语言的转录语音样本,采用知识共享署名许可协议(CC-BY)供全球开发者与研究人员免费获取。此举旨在支持针对特定语言需求定制化开发语音识别模型。
系统核心创新在于“自带语言”(Bring Your Own Language)功能,该机制借鉴大型语言模型的上下文学习技术,允许用户通过提供少量语音-文本配对样本实现新语言适配。这种无需重新训练模型的技术路径,使得系统理论上可扩展至支持5400余种语言,远超当前行业水平。虽然极低资源语言的识别质量仍待提升,但已为缺乏技术支撑的语言社区提供了可行解决方案。
在技术开源方面,meta以Apache 2.0协议开放了Omnilingual ASR全部模型代码,配套数据集则采用CC-BY协议。模型家族提供从3亿参数的轻量级版本到70亿参数的高精度版本,适配从移动设备到云端服务的多样化场景需求。所有模型均基于FAIR自主研发的PyTorch框架fairseq2构建,为开发者提供了灵活的技术基础。











