国内AI领域迎来突破性进展——阶跃星辰(StepStepFun AI)近日推出全球首个LLM级音频编辑模型Step-Audio-EditX,以自然语言指令驱动语音编辑的创新模式,彻底打破传统音频制作的技术壁垒。用户通过简单指令如“将语气调整为东北喜剧腔调”或“在结尾添加3秒羞涩笑声”,即可实现音色、情感、节奏的精准调控,让语音编辑变得像修改文字一样直观。
该模型的核心竞争力源于其独特的参数压缩技术。研发团队将原始130亿参数的模型压缩至30亿规模,在降低90%部署成本的同时,性能指标实现逆势提升。其零样本语音克隆功能仅需10秒参考音频,即可高精度复现目标音色;多轮迭代编辑特性支持用户通过“再增加20%语速”“强化愤怒情绪”等细化指令,逐步逼近理想效果。
在中文语境适配方面,Step-Audio-EditX展现出显著优势。模型深度理解普通话、四川话、粤语及英语的方言特质,能自然呈现川渝方言的市井幽默感、粤语语气词的微妙情感变化。第三方盲测显示,其方言表现力评分较同类产品高出17%,情感传递准确率达93.7%,音色还原度达98.1%,在自然度、情感表达、音色保真三大维度全面领先Minimax、字节跳动Doubao等闭源方案。
技术突破正催生多元化应用场景。短视频创作者可一键切换“霸道总裁”“软萌学妹”等个性化声线;有声书制作实现单人演绎多角色情感对话;方言内容通过AI转译可快速适配国际市场,如将四川话脱口秀转化为美式喜剧风格;听障群体的语音合成系统首次具备情感温度,告别机械刻板的表达方式。
行业分析师指出,Step-Audio-EditX重新定义了音频内容的生产范式。当语音从“一次性录制”转变为可反复雕琢的动态文本,创作者将获得前所未有的表达自由。目前该模型已开放线上体验入口(https://stepaudiollm.github.io/step-audio-editx/),若未来通过API接口或手机系统集成,这项“语音魔法工具”有望成为全民创作的标配。










