在语音转文字技术领域,ElevenLabs与谷歌近期成为行业焦点。根据Artificial Analysis最新发布的AA-WER v2.0基准测试结果,两家企业在音频转录任务中展现出显著优势,其模型性能远超多数竞争对手。
ElevenLabs推出的Scribe v2模型以2.3%的词错率(WER)摘得桂冠,成为当前准确率最高的商用语音识别系统。谷歌的Gemini3Pro紧随其后,错误率控制在2.9%,尽管该模型未针对转录场景进行专项优化,但其多模态架构仍展现出强大泛化能力。测试数据显示,这两款模型在处理复杂语音场景时,对专业术语、口音和背景噪音的适应性明显优于其他产品。
中游阵营呈现差异化竞争态势。Mistral Voxtral Small以3.0%的错误率位列第三,谷歌另一款轻量化模型Gemini3Flash则以3.1%的微弱差距紧随其后。OpenAI的Whisper Large v3作为开源领域代表,此次取得4.2%的测试成绩,虽在准确率上不及头部企业,但其开放生态仍吸引大量开发者使用。值得注意的是,该模型在长音频处理和方言识别方面具有独特优势。
部分企业模型表现未达预期。阿里巴巴的Qwen3ASR Flash、亚马逊的Nova2Omni以及Rev AI分别以5.9%、6.0%和6.1%的错误率位列榜单末位。技术分析指出,这些模型在训练数据多样性、实时响应速度等关键指标上存在改进空间,尤其在处理高语速或含混发音时,错误率出现明显上升。
专项测试进一步验证头部模型优势。在针对语音助手指令设计的AA-AgentTalk评测中,ElevenLabs Scribe v2和Google Gemini3Pro延续强势表现,错误率分别低至1.6%和1.7%。这类测试重点考察模型对短句、关键词和上下文的理解能力,结果显示两家企业的产品在交互延迟和语义解析精度上已达到消费级应用标准,为智能家居、车载系统等场景提供了可靠技术支撑。













