小米公司近日宣布,正式开源其自主研发的首个原生端到端语音大模型——Xiaomi-MiMo-Audio。这一成果被视为语音技术领域的重要里程碑,标志着语音模型首次实现了与语言模型相当的少样本泛化能力,为语音通用人工智能(AGI)的发展开辟了新路径。
长期以来,语音技术发展受制于对大规模标注数据的依赖,难以像语言模型那样通过少量样本快速适应新任务。小米团队通过创新预训练架构,利用超过1亿小时的语音数据进行无损压缩训练,使模型在预训练阶段展现出显著的“涌现”能力,即通过上下文学习(In-Context Learning)实现跨任务泛化。这一突破被业内称为语音领域的“GPT-3时刻”。
在性能评测中,Xiaomi-MiMo-Audio表现亮眼。该模型在音频理解基准MMAU测试集上超越了谷歌的闭源模型Gemini-2.5-Flash,在音频复杂推理基准Big Bench Audio S2T任务中则超过了OpenAI的GPT-4o-Audio-Preview。这些成绩不仅体现了小米的技术实力,也为语音AI性能评估提供了新的参考标准。
小米此次开源的内容涵盖多个层面:包括70亿参数的预训练模型MiMo-Audio-7B-Base和指令微调模型MiMo-Audio-7B-Instruct,配套的无损压缩Tokenizer模型,详细的技术报告以及评估框架。其中,Tokenizer模型采用Transformer架构,参数量达12亿,通过千万小时级语音数据训练,可同时支持音频重建和文本转换任务。指令微调模型则具备独特的“思考模式”,可通过提示词切换非思考与思考状态,为语音强化学习研究提供了新的基座。
作为语音领域首个明确预训练目标并开源完整方案的企业,小米此次行动具有双重意义。技术层面,其提出的语音生成式预训练框架,包含从数据压缩到模型结构的全套解决方案,被视为语音领域的“LLaMA时刻”;产业层面,开源策略将促进语音研究社区的协同发展,加速语音大模型与语言大模型的技术对齐。
目前,小米已将相关模型和工具上传至Hugging Face平台,技术报告详细披露了训练细节,评估框架则支持超过10项测评任务。公司表示,将持续推进语音技术开源,期待通过开放协作推动人机交互方式的革新,为语音AI进入“奇点”时代奠定基础。