MiniMax公司近日正式发布新一代语音模型Speech 2.6,以"极速响应、高度拟人、智能交互"为核心特性,为语音技术领域带来突破性进展。该模型在实时对话场景中实现250毫秒以内的超低延迟,达到接近人类自然对话的反馈速度,标志着语音交互技术迈入全新阶段。
在语音表现力方面,Speech 2.6突破传统技术局限,不仅具备全语音克隆能力,更通过Fluent LoRA情感引擎实现细腻的语气变化。模型能够精准捕捉声音的音色特征,同时模拟出包含喜怒哀乐在内的自然情感表达,特别适用于陪伴型AI、有声内容创作、播客制作及影视配音等场景。测试数据显示,其情感表达自然度较前代提升47%,音色相似度达到98.6%。
多语言支持能力方面,Speech 2.6实现质的飞跃。模型内置40余种语言处理模块,支持在同一语句中无缝切换不同语言,特别适用于跨国会议、全球化产品设计等跨语言交流场景。测试表明,中英混合语句的切换延迟控制在50毫秒以内,语言过渡自然流畅,完全满足实时交互需求。
目前,Speech 2.6的API接口已全面开放,开发者可通过标准化接口快速集成。该模型支持云端部署和边缘计算两种模式,可根据不同应用场景灵活配置。技术文档显示,模型在保持高性能的同时,资源占用率较同类产品降低35%,特别适合移动端设备部署。











