在企业级 AI 市场动作频频的 Cohere 公司,于 2026 年 3 月 26 日正式推出了名为Cohere Transcribe的开源语音识别模型。
这款模型拥有 20 亿参数,专为边缘设备设计,旨在打破以往语音模型因体积过大而导致的延迟瓶颈。通过采用 Apache 2.0 协议开源,Cohere 试图效仿 meta 的路径,利用开发者社区的力量快速完善生态,并最终实现商业化反哺。
边缘侧的性能怪兽:支持 14 种语言且超越主流对手
Cohere Transcribe在训练中涵盖了包括中文、日语、法语和希伯来语在内的 14 种语言。根据 Hugging Face 开放 ASR 排行榜的最新数据,该模型在性能指标上已经超越了 ElevenLabs Scribe 和阿里旗下的 Qwen3 等同类竞品。
得益于精简的参数量,它能直接部署在手机、PC 或工业网关等终端设备上,无需频繁调用云端算力,这不仅极大地降低了数据传输延迟,也为银行、销售和医疗等对隐私高度敏感的行业提供了更安全的解决方案。
从文本到语音的战略扩张:重塑智能体交互基石
虽然 Cohere 过去一直深耕文本生成领域,但此次跨界语音识别被视为其构建全能 AI 智能体(Agent)的关键一步。公司宣布,Cohere Transcribe即将整合进其 AI 智能体编排平台 North 中。
分析人士指出,随着 Siri 式的语音交互成为 AI 浪潮的起点,语音能力已成为智能体感知世界的必备“耳朵”。Cohere 正通过这种“小而强”的开源策略,在边缘计算和实时语音翻译市场与 IBM、阿里巴巴以及推出 AI Companion 3.0 的 Zoom 展开正面交锋。














