小米近日宣布,正式开源其首个原生端到端语音模型Xiaomi-MiMo-Audio。该模型依托创新的预训练架构与海量训练数据,在语音领域首次实现了基于ICL(上下文学习)的少样本泛化能力,并在预训练阶段展现出显著的“涌现”特性。
据技术团队披露,Xiaomi-MiMo-Audio在多项权威评测中表现亮眼。在通用语音理解与对话任务的标准基准测试中,该模型以70亿参数规模超越了同量级的开源模型,创下该参数规模下的最佳性能纪录。其核心优势在于通过创新的预训练方法,显著提升了模型对复杂语音场景的适应能力。
在音频理解专项评测MMAU标准测试集上,Xiaomi-MiMo-Audio的得分超过Google旗下闭源语音模型Gemini-2.5-Flash。这一突破标志着开源模型在专业音频理解领域首次实现对商业闭源模型的超越,为语音技术研究提供了新的参考范式。
面对高难度音频推理任务时,该模型同样展现出强劲实力。在Big Bench Audio S2T基准测试中,Xiaomi-MiMo-Audio的性能指标超越了OpenAI开发的闭源语音模型GPT-4o-Audio-Preview。这项成就验证了模型在处理复杂语音推理任务时的技术优势,特别是在多模态语音交互场景中的创新能力。