阶跃星辰公司近期震撼发布了其最新的开源语音大模型Step-Audio2mini,这一创新成果在国际基准测试中大放异彩,斩获了最先进技术(SOTA)的殊荣。Step-Audio2mini不仅在语音理解和音频生成领域展现出强大的实力,更首次将音频推理与生成整合至同一模型中,为语音识别、跨语言交流及情感分析等多元化应用场景提供了卓越的解决方案。
该模型的一大亮点在于其出众的多模态音频理解能力。在备受瞩目的多模态音频理解测试集(MMAU)上,Step-Audio2mini以73.2分的优异成绩,稳居开源语音模型排行榜首位。在口语对话能力的权威测试URO Bench中,无论是在基础赛道还是专业赛道,Step-Audio2mini均取得了开源模型中的最高分数,彰显了其对话理解与表达方面的卓越才能。
在中英互译任务上,Step-Audio2mini同样表现出色。在CoVoST2和CVSS评测集上,该模型分别斩获了39.3和29.1的高分,显著超越了GPT-4o Audio等竞争对手,以及其他开源语音模型。在语音识别领域,Step-Audio2mini同样表现非凡,在开源中文测试集上的字错误率仅为3.19%,在开源英语测试集上的词错误率也仅为3.50%,相较于其他开源模型,领先幅度超过15%。
Step-Audio2mini的成功得益于其独特的架构设计。该模型摒弃了传统的自动语音识别(ASR)、大语言模型(LLM)和文本转语音(TTS)三级结构,实现了从原始音频输入到语音响应输出的无缝转换,极大地简化了模型架构,降低了处理延迟。同时,模型还融入了链式思维推理(CoT)与强化学习的联合优化技术,使其能够更精准地捕捉情绪、语调等副语言信息,并作出自然流畅的回应。
尤为Step-Audio2mini还具备音频知识增强功能,能够借助外部工具进行联网搜索,有效解决了传统模型中的幻觉问题。这一创新特性不仅提升了模型的实用性和可靠性,还进一步拓宽了其在各类应用场景中的潜力。
目前,Step-Audio2mini已在GitHub、Hugging Face等知名平台上架,诚邀广大开发者前来试用并贡献代码,共同推动语音技术的创新发展。